حالت‌های رایج شکست در سامانه‌های مدل زبانی — و چگونگی شناسایی و مهار آن‌ها

مدل‌های زبانی نه به‌صورت تصادفی، بلکه به شیوه‌هایی مشخص دچار شکست می‌شوند؛ با شناخت این حالت‌ها، می‌توانید پیش از مواجهه کاربر، آن‌ها را شناسایی و مهار کنید.

وقتی مدل زبانی در محصولی واقعی شکست می‌خورد، این اتفاق معمولاً تصادفی نیست؛ بلکه در قالب یکی از چند حالتِ مشخص رخ می‌دهد. شناخت این حالت‌های شکست مانند داشتن یک فهرست بازبینی است که به کمک آن می‌دانید دقیقاً کجا را جست‌وجو کنید و چطور آن را بسنجید. بیایید مهم‌ترینِ این حالت‌ها را مرور کنیم.

درک: مدل ورودی را نمی‌فهمد

نخستین حالت، ضعف در درک است؛ یعنی مدل مفهوم ورودی را دریافت نمی‌کند، یا در متن‌های طولانی و چندمرحله‌ای، سررشتهٔ کلام از دستش خارج می‌شود. نشانهٔ این ضعف، ارائهٔ پاسخی است که اساساً ربطی به پرسش مطرح‌شده ندارد. برای شناسایی این مشکل، می‌توان از آزمون‌هایی بهره گرفت که توانایی فهم ورودی‌های پیچیده و طولانی را می‌سنجند.

استدلال: منطق شکننده است

حالت دوم، ضعف در استدلال است؛ زمانی که مدل به پاسخ‌های سطحی بسنده می‌کند یا در استنتاج‌های چندمرحله‌ای و زنجیره‌های منطقی جدید دچار خطا می‌شود. این وضعیت را می‌توان با محک زدن مدل روی مسائل نوظهور آشکار کرد؛ یعنی مسائلی که احتمالاً مدل در داده‌های آموزشی خود با آن‌ها مواجه نشده است.

تولید ساختارمند: قالب می‌شکند

حالت سوم، گسست در خروجی ساختارمند است؛ برای مثال، مدل یک JSON نامعتبر تولید می‌کند، فیلدی ساختگی می‌سازد یا مقداری خارج از فهرست مجاز ارائه می‌دهد. ردیابی این اختلال بسیار ساده است؛ یک ابزار اعتبارسنجی در مراحل پایین‌دستی، خروجی‌های معیوب را شناسایی و ثبت می‌کند.

وفاداری: توهم

شاید مهم‌ترین حالت، شکست در وفاداری باشد که اصطلاحاً به آن «توهم» می‌گویند. در این حالت، مدل بافتار ارائه‌شده را نادیده می‌گیرد و اطلاعاتی ساختگی تحویل می‌دهد، به منابع ناموجود ارجاع می‌دهد، یا تحت فشار، از بیان حقیقت روشن طفره می‌رود. این نقص بسیار خطرناک است، زیرا خروجی در ظاهر کاملاً درست و متقاعدکننده به نظر می‌رسد. راهکار شناسایی آن، سنجش وفاداری روی داده‌هایی است که پاسخ درستِ آن‌ها مشخص است، تا میزان پایبندی مدل به متن مرجع ارزیابی شود.

واسنجی: اعتمادبه‌نفس نابه‌جا

حالت پنجم، اختلال در واسنجی است که دو نمود متفاوت دارد. نخست، اعتمادبه‌نفس کاذب: مدل دربارهٔ همه چیز با قاطعیت پاسخ می‌دهد و هیچ‌گاه نمی‌گوید «نمی‌دانم». دوم، چاپلوسی: مدل تحت فشار کاربر، از استدلال درست خود دست می‌کشد و با پاسخ غلط او موافقت می‌کند. هر دو حالت را می‌توان با طراحی آزمون‌هایی سنجید که عمداً مدل را به مسیر گمراه‌کننده می‌کشانند تا مشخص شود آیا در برابر خطا ایستادگی می‌کند یا تسلیم می‌شود.

پیروی از دستورالعمل: قوانین نادیده گرفته می‌شوند

حالت ششم، ناتوانی در پیروی از دستورالعمل‌ها است؛ جایی که مدل قوانین چندبخشی را نقض می‌کند، محدودیت‌ها را نادیده می‌گیرد یا گزاره‌های منفی را از قلم می‌اندازد. یکی از زیرشاخه‌های مهم این حالت، تزریق پرامپت است؛ یعنی مدل به‌جای پیروی از دستورهای سامانه، از دستورهای پنهان‌شده در ورودی کاربر اطاعت می‌کند. این مشکل را می‌توان با آزمون‌های ارزیابی دستورپذیری و ورودی‌های خصمانه آشکار کرد.

ابتکار: تنها به آنچه پرسیده شده پاسخ می‌دهد

حالت آخر، ضعف در ابتکار عمل است؛ یعنی مدل صرفاً به پرسش‌های صریح پاسخ می‌دهد و هرگز ابهامات یا کاستی‌های مشهود در مسئله را یادآور نمی‌شود. این رویکرد برای کارهای بسته کارآمد است، اما در سناریوهای باز به شکنندگی خروجی می‌انجامد. روش سنجش آن، سپردن وظایف باز به مدل است تا ارزیابی شود که آیا فراتر از حداقلِ خواسته‌شده عمل می‌کند یا خیر.

از فهرست شکست تا فهرست آزمون

نکته کلیدی این است که چون این حالت‌های شکست تصادفی نیستند، می‌توان برای تک‌تک آن‌ها آزمون طراحی کرد. به‌جای اینکه منتظر بمانید تا کاربر متوجه این نقص‌ها شود، این الگوها را به یک فهرست بازبینی تبدیل کنید و هر مدل نامزد را با آن بسنجید. تفاوت اصلی بین سامانه‌ای که نقاط ضعف خود را می‌شناسد و سامانه‌ای که با هر خطای جدید غافلگیر می‌شود، در همین رویکرد نهفته است.