در مواجهه با مدلهای زبانی، معمولاً سازوکار توجه (attention) را نقش اول این میدان میدانیم. اما اگر بپرسیم دانش مدل — مثلاً اینکه پاریس پایتخت فرانسه است یا ساختار دستوریِ یک زبان برنامهنویسی چیست — دقیقاً در کجا ذخیره میشود، پاسخ را باید در جای دیگری جستوجو کرد: در لایههای MLP. در ادامه به علت این موضوع میپردازیم.
دو نقشِ متفاوت
هر بلوک Transformer از دو بخش اصلی تشکیل شده است: سازوکار توجه و لایهٔ MLP (شبکهٔ پیشخور). این دو بخش وظایف کاملاً متفاوتی بر عهده دارند. سازوکار توجه اطلاعات را مسیریابی میکند: این بخش تعیین میکند که کدام بخش از متن به کدام بخش دیگر مرتبط است و اطلاعات را بین جایگاههای مختلف جابهجا میکند، اما خود فاقد هرگونه پایگاه دانش است. در مقابل، MLP وظیفهٔ حفظ دانش را بر عهده دارد: واقعیتها و الگوها دقیقاً در همین لایه ذخیره میشوند.
برای درک بهتر میتوان از این استعاره بهره برد: سازوکار توجه مانند کتابداری است که میداند هر کتاب در کدام بخش قرار دارد، در حالی که لایهٔ MLP خودِ کتابهایی است که محتوا را در سینه دارند. برای پاسخ به پرسش «پایتخت فرانسه چیست؟»، لایهٔ توجه بافتارِ «فرانسه» و «پایتخت» را به یکدیگر پیوند میدهد و لایهٔ MLP پاسخِ «پاریس» را فراخوانی میکند.
حافظهای از جنسِ کلید و مقدار
چرا عملکرد MLP بدین صورت است؟ این لایه را میتوان نوعی حافظهٔ کلید-مقدار دانست. بخش نخستِ MLP همچون مجموعهای از کلیدها عمل میکند که الگوهای مختلف را شناسایی میکنند، و بخش دوم نقش مقادیری را دارد که در پاسخ به آن الگوها فراخوانی میشوند. به محض فعالشدن الگویی خاص در ورودی — برای نمونه، «این موضوع به پایتخت یک کشور مربوط است» — کلید متناظر با آن فعال شده و مقدار مربوطه (همان دانش ذخیرهشده) به جریان اطلاعات افزوده میشود.
چرا MLP اینقدر بزرگ است
همین کارکرد نشان میدهد چرا بخش عمدهای از پارامترهای مدل به لایهٔ MLP اختصاص یافته است. در یک مدل استاندارد، بیشترین سهم از پارامترها به لایههای MLP تعلق دارد، در حالی که سهم سازوکار توجه بهمراتب کمتر است و مابقی پارامترها نیز به بخش جاسازیها اختصاص مییابد. دلیل این امر کاملاً منطقی است: ذخیرهسازی میلیونها داده و واقعیتِ مستقل — اعم از نامها، تاریخها، پیوندها و ساختارهای زبانی — گنجایش و ظرفیت عظیمی میطلبد. مسیریابی فرآیندی سبک به شمار میرود، اما نگهداری دانش کاری است بس سنگین.
چرا این موضوع اهمیت دارد
این مرزبندی صرفاً بحثی تئوریک نیست، بلکه پیامدهای عملی مهمی به همراه دارد. هنگام ریزتنظیم یک مدل برای یادگیری دانش جدید، باید مطمئن شد که هدفگذاری روی لایههای MLP نیز معطوف باشد و نه فقط سازوکار توجه؛ چرا که جایگاه اصلی دانش همین لایههاست. به همین ترتیب، در فرآیند فشردهسازی یا هرس کردن مدل، باید به یاد داشت که هرگونه تغییر در لایههای MLP مستقیماً به معنای دستکاری در حافظهٔ مدل خواهد بود.
جمعبندی
در یک نگاه ساده: لایهٔ توجه مشخص میکند که «به چه چیزی باید نگریست» و لایهٔ MLP اعلام میدارد که «این تمام دانستهٔ من دربارهٔ آن موضوع است». دانش یک مدل در میلیونها وزنِ نهفته در لایههای MLP پراکنده شده است، نه در سازوکار توجه. درک این تمایز ساختاری، علاوه بر کمک به طراحی فرآیندهای کارآمدتر برای ریزتنظیم، دلیل حجم بالای مدلها را نیز روشن میسازد؛ حجمی که بخش عمدهٔ آن را حافظه تشکیل میدهد.