از مدل‌های زبانی تا عامل‌ها: مسیر کامل

یک مدل زبانی در اصل فقط کلمه بعدی را پیش‌بینی می‌کند. در این مطلب می‌بینیم که چگونه با افزودن ابزار، حافظه و برنامه‌ریزی به همین پیش‌بینی ساده، به یک عامل می‌رسیم و چه زمانی واقعاً به آن نیاز داریم.

پیش‌بینی سادهٔ کلمهٔ بعدی

در هستهٔ اصلی هر مدل زبانی بزرگ، فرآیندی به‌ظاهر ساده قرار دارد: حدس زدن کلمه یا عبارت بعدی بر اساس متنی که تا کنون ارائه شده است. مدل متن را توکن‌به‌توکن می‌خواند، توکن بعدی را پیش‌بینی می‌کند، آن را به انتهای متن می‌افزاید و این چرخه را از نو تکرار می‌کند. کل ماجرا همین است؛ فرآیندی که می‌توان آن را نوعی «تکمیل خودکار بسیار پیشرفته» دانست.

اما همین کار ساده پیامدی شگفت‌انگیز به همراه دارد. برای اینکه جمله‌ای مانند «اگر آب را تا صد درجه گرم کنیم…» به‌درستی کامل شود، باید واقعاً بدانید که آب می‌جوشد. از آنجا که مدل میلیون‌ها نمونه از این دست جملات را در زمینه‌های گوناگون خوانده است، یادگیری فرآیند پیش‌بینی کلمهٔ بعدی، آن را ناگزیر ساخته تا دانش گسترده‌ای از جهان را در خود ذخیره کند.

نحوهٔ آموزش مدل

آموزش مدل در سه مرحله انجام می‌شود. نخست، پیش‌آموزش: مدل حجم عظیمی از داده‌های متنی شامل کتاب‌ها، صفحات وب، دانشنامه‌ها و کدها را می‌خواند و بدون نیاز به آموزش مستقیم، زبان، دانش عمومی و الگوهای استدلالی را فرامی‌گیرد. دوم، تنظیم نظارت‌شده: در این مرحله با استفاده از هزاران نمونه پرسش و پاسخ باکیفیت، به مدل آموزش می‌دهند که به‌جای ادامه‌دادنِ بی‌هدفِ متن، پاسخ‌های مشخص ارائه کند. سوم، یادگیری از بازخورد انسانی: انسان‌ها پاسخ‌های مختلف را رتبه‌بندی می‌کنند تا مدل بیاموزد چه چیزی از نظر انسان یک «پاسخ خوب» به شمار می‌رود.

نکتهٔ جالب این است که با افزایش مقیاس، توانمندی‌هایی پدیدار می‌شوند که هرگز به‌طور مستقیم آموزش داده نشده‌اند؛ مانند یادگیری با چند مثال یا استدلال گام‌به‌گام. این پدیده «ظهور توانایی» نامیده می‌شود.

شش کاری که یک مدل زبانی به‌تنهایی به‌خوبی انجام نمی‌دهد

با وجود تمام این توانمندی‌ها، یک مدل زبانیِ صرف با شش محدودیت اساسی روبه‌رو است. نخست، توهم: مدل گاهی با اطمینان کامل سخنانی باورپذیر اما کاملاً نادرست می‌گوید؛ درست مانند دانش‌آموزی که به‌جای اعتراف به ندانستن، با قاطعیت حدس می‌زند. دوم، مرز دانش: اطلاعات مدل تنها تا تاریخ مشخصی به‌روز است؛ مانند دانشنامه‌ای چاپی که بازهٔ زمانی خاصی را پوشش می‌دهد. سوم، ناتوانی در اقدام: مدل تنها قادر به تولید متن است؛ نه ایمیلی می‌فرستد و نه فایلی ذخیره می‌کند — شبیه به مغزی بدون دست. چهارم، ضعف در محاسبات دقیق: مدل اعداد را بیشتر حدس می‌زند تا اینکه آن‌ها را به روش ریاضی محاسبه کند. پنجم، نداشتن حافظه بلندمدت: هر گفت‌وگو با مدل از صفر آغاز می‌شود. ششم، حساسیت به نحوه بیان پرسش: کوچک‌ترین تغییر در ساختار پرسش می‌تواند پاسخ را به‌کلی دگرگون کند.

از مدل تا عامل

اینجاست که مفهوم «عامل» مطرح می‌شود. یک عامل، مدل زبانی را درون ساختاری بزرگ‌تر قرار می‌دهد. این مفهوم را می‌توان در یک فرمول ساده خلاصه کرد: عامل برابر است با مدل زبانی به‌علاوهٔ ابزارها، حافظه و برنامه‌ریزی. مدل زبانیِ صرف مانند مشاوره‌ای است که راهکار ارائه می‌دهد اما اقدام عملی نمی‌کند؛ در مقابل، عامل مانند مدیر پروژه‌ای است که هدفی را دریافت می‌کند، مراحل کار را می‌چیند، آن‌ها را پیش می‌برد و در صورت بروز خطا، مسیر را اصلاح می‌کند.

با این حال، همهٔ کارها به یک عامل تمام‌عیار نیاز ندارند. یک قاعدهٔ سرانگشتی ساده می‌تواند راهگشا باشد: بخش بزرگی از مسائل را می‌توان تنها با یک پرامپت مناسب و اندکی بازیابی اطلاعات حل کرد؛ بخش دیگر به زنجیره‌ای از ابزارها نیاز دارد؛ و تنها بخش کوچکی واقعاً نیازمند یک عامل کامل با برنامه‌ریزی پیچیده است. بنابراین، پیچیدگی را تنها زمانی اضافه کنید که مسئله واقعاً به آن نیاز داشته باشد.