پیشبینی سادهٔ کلمهٔ بعدی
در هستهٔ اصلی هر مدل زبانی بزرگ، فرآیندی بهظاهر ساده قرار دارد: حدس زدن کلمه یا عبارت بعدی بر اساس متنی که تا کنون ارائه شده است. مدل متن را توکنبهتوکن میخواند، توکن بعدی را پیشبینی میکند، آن را به انتهای متن میافزاید و این چرخه را از نو تکرار میکند. کل ماجرا همین است؛ فرآیندی که میتوان آن را نوعی «تکمیل خودکار بسیار پیشرفته» دانست.
اما همین کار ساده پیامدی شگفتانگیز به همراه دارد. برای اینکه جملهای مانند «اگر آب را تا صد درجه گرم کنیم…» بهدرستی کامل شود، باید واقعاً بدانید که آب میجوشد. از آنجا که مدل میلیونها نمونه از این دست جملات را در زمینههای گوناگون خوانده است، یادگیری فرآیند پیشبینی کلمهٔ بعدی، آن را ناگزیر ساخته تا دانش گستردهای از جهان را در خود ذخیره کند.
نحوهٔ آموزش مدل
آموزش مدل در سه مرحله انجام میشود. نخست، پیشآموزش: مدل حجم عظیمی از دادههای متنی شامل کتابها، صفحات وب، دانشنامهها و کدها را میخواند و بدون نیاز به آموزش مستقیم، زبان، دانش عمومی و الگوهای استدلالی را فرامیگیرد. دوم، تنظیم نظارتشده: در این مرحله با استفاده از هزاران نمونه پرسش و پاسخ باکیفیت، به مدل آموزش میدهند که بهجای ادامهدادنِ بیهدفِ متن، پاسخهای مشخص ارائه کند. سوم، یادگیری از بازخورد انسانی: انسانها پاسخهای مختلف را رتبهبندی میکنند تا مدل بیاموزد چه چیزی از نظر انسان یک «پاسخ خوب» به شمار میرود.
نکتهٔ جالب این است که با افزایش مقیاس، توانمندیهایی پدیدار میشوند که هرگز بهطور مستقیم آموزش داده نشدهاند؛ مانند یادگیری با چند مثال یا استدلال گامبهگام. این پدیده «ظهور توانایی» نامیده میشود.
شش کاری که یک مدل زبانی بهتنهایی بهخوبی انجام نمیدهد
با وجود تمام این توانمندیها، یک مدل زبانیِ صرف با شش محدودیت اساسی روبهرو است. نخست، توهم: مدل گاهی با اطمینان کامل سخنانی باورپذیر اما کاملاً نادرست میگوید؛ درست مانند دانشآموزی که بهجای اعتراف به ندانستن، با قاطعیت حدس میزند. دوم، مرز دانش: اطلاعات مدل تنها تا تاریخ مشخصی بهروز است؛ مانند دانشنامهای چاپی که بازهٔ زمانی خاصی را پوشش میدهد. سوم، ناتوانی در اقدام: مدل تنها قادر به تولید متن است؛ نه ایمیلی میفرستد و نه فایلی ذخیره میکند — شبیه به مغزی بدون دست. چهارم، ضعف در محاسبات دقیق: مدل اعداد را بیشتر حدس میزند تا اینکه آنها را به روش ریاضی محاسبه کند. پنجم، نداشتن حافظه بلندمدت: هر گفتوگو با مدل از صفر آغاز میشود. ششم، حساسیت به نحوه بیان پرسش: کوچکترین تغییر در ساختار پرسش میتواند پاسخ را بهکلی دگرگون کند.
از مدل تا عامل
اینجاست که مفهوم «عامل» مطرح میشود. یک عامل، مدل زبانی را درون ساختاری بزرگتر قرار میدهد. این مفهوم را میتوان در یک فرمول ساده خلاصه کرد: عامل برابر است با مدل زبانی بهعلاوهٔ ابزارها، حافظه و برنامهریزی. مدل زبانیِ صرف مانند مشاورهای است که راهکار ارائه میدهد اما اقدام عملی نمیکند؛ در مقابل، عامل مانند مدیر پروژهای است که هدفی را دریافت میکند، مراحل کار را میچیند، آنها را پیش میبرد و در صورت بروز خطا، مسیر را اصلاح میکند.
با این حال، همهٔ کارها به یک عامل تمامعیار نیاز ندارند. یک قاعدهٔ سرانگشتی ساده میتواند راهگشا باشد: بخش بزرگی از مسائل را میتوان تنها با یک پرامپت مناسب و اندکی بازیابی اطلاعات حل کرد؛ بخش دیگر به زنجیرهای از ابزارها نیاز دارد؛ و تنها بخش کوچکی واقعاً نیازمند یک عامل کامل با برنامهریزی پیچیده است. بنابراین، پیچیدگی را تنها زمانی اضافه کنید که مسئله واقعاً به آن نیاز داشته باشد.