MLP حافظه مدل است: دانش در کجا جای دارد؟

در یک مدل زبانی، لایه‌های Attention اطلاعات را مسیریابی می‌کنند، اما دانش واقعی در جای دیگری ذخیره می‌شود؛ در لایه‌های MLP که بخش بزرگی از مدل را تشکیل می‌دهند.

در مواجهه با مدل‌های زبانی، معمولاً سازوکار توجه (attention) را نقش اول این میدان می‌دانیم. اما اگر بپرسیم دانش مدل — مثلاً اینکه پاریس پایتخت فرانسه است یا ساختار دستوریِ یک زبان برنامه‌نویسی چیست — دقیقاً در کجا ذخیره می‌شود، پاسخ را باید در جای دیگری جست‌وجو کرد: در لایه‌های MLP. در ادامه به علت این موضوع می‌پردازیم.

دو نقشِ متفاوت

هر بلوک Transformer از دو بخش اصلی تشکیل شده است: سازوکار توجه و لایهٔ MLP (شبکهٔ پیش‌خور). این دو بخش وظایف کاملاً متفاوتی بر عهده دارند. سازوکار توجه اطلاعات را مسیریابی می‌کند: این بخش تعیین می‌کند که کدام بخش از متن به کدام بخش دیگر مرتبط است و اطلاعات را بین جایگاه‌های مختلف جابه‌جا می‌کند، اما خود فاقد هرگونه پایگاه دانش است. در مقابل، MLP وظیفهٔ حفظ دانش را بر عهده دارد: واقعیت‌ها و الگوها دقیقاً در همین لایه ذخیره می‌شوند.

برای درک بهتر می‌توان از این استعاره بهره برد: سازوکار توجه مانند کتابداری است که می‌داند هر کتاب در کدام بخش قرار دارد، در حالی که لایهٔ MLP خودِ کتاب‌هایی است که محتوا را در سینه دارند. برای پاسخ به پرسش «پایتخت فرانسه چیست؟»، لایهٔ توجه بافتارِ «فرانسه» و «پایتخت» را به یکدیگر پیوند می‌دهد و لایهٔ MLP پاسخِ «پاریس» را فراخوانی می‌کند.

حافظه‌ای از جنسِ کلید و مقدار

چرا عملکرد MLP بدین صورت است؟ این لایه را می‌توان نوعی حافظهٔ کلید-مقدار دانست. بخش نخستِ MLP همچون مجموعه‌ای از کلیدها عمل می‌کند که الگوهای مختلف را شناسایی می‌کنند، و بخش دوم نقش مقادیری را دارد که در پاسخ به آن الگوها فراخوانی می‌شوند. به محض فعال‌شدن الگویی خاص در ورودی — برای نمونه، «این موضوع به پایتخت یک کشور مربوط است» — کلید متناظر با آن فعال شده و مقدار مربوطه (همان دانش ذخیره‌شده) به جریان اطلاعات افزوده می‌شود.

چرا MLP این‌قدر بزرگ است

همین کارکرد نشان می‌دهد چرا بخش عمده‌ای از پارامترهای مدل به لایهٔ MLP اختصاص یافته است. در یک مدل استاندارد، بیشترین سهم از پارامترها به لایه‌های MLP تعلق دارد، در حالی که سهم سازوکار توجه به‌مراتب کمتر است و مابقی پارامترها نیز به بخش جاسازی‌ها اختصاص می‌یابد. دلیل این امر کاملاً منطقی است: ذخیره‌سازی میلیون‌ها داده و واقعیتِ مستقل — اعم از نام‌ها، تاریخ‌ها، پیوندها و ساختارهای زبانی — گنجایش و ظرفیت عظیمی می‌طلبد. مسیریابی فرآیندی سبک به شمار می‌رود، اما نگهداری دانش کاری است بس سنگین.

چرا این موضوع اهمیت دارد

این مرزبندی صرفاً بحثی تئوریک نیست، بلکه پیامدهای عملی مهمی به همراه دارد. هنگام ریزتنظیم یک مدل برای یادگیری دانش جدید، باید مطمئن شد که هدف‌گذاری روی لایه‌های MLP نیز معطوف باشد و نه فقط سازوکار توجه؛ چرا که جایگاه اصلی دانش همین لایه‌هاست. به همین ترتیب، در فرآیند فشرده‌سازی یا هرس کردن مدل، باید به یاد داشت که هرگونه تغییر در لایه‌های MLP مستقیماً به معنای دستکاری در حافظهٔ مدل خواهد بود.

جمع‌بندی

در یک نگاه ساده: لایهٔ توجه مشخص می‌کند که «به چه چیزی باید نگریست» و لایهٔ MLP اعلام می‌دارد که «این تمام دانستهٔ من دربارهٔ آن موضوع است». دانش یک مدل در میلیون‌ها وزنِ نهفته در لایه‌های MLP پراکنده شده است، نه در سازوکار توجه. درک این تمایز ساختاری، علاوه بر کمک به طراحی فرآیندهای کارآمدتر برای ریزتنظیم، دلیل حجم بالای مدل‌ها را نیز روشن می‌سازد؛ حجمی که بخش عمدهٔ آن را حافظه تشکیل می‌دهد.