با معرفی هر مدل جدید، معمولاً نخستین قدم، بررسی جایگاه آن در جدولهای رتبهبندی عمومی است. با این حال، این جدولها بسیار کمتر از آنچه تصور میکنیم، درباره عملکرد واقعی مدل در کارهای واقعی ما اطلاعاتی به دست میدهند.
مشکل جدولهای عمومی
تکعددی که در جدول رتبهبندی به عنوان نمره نهایی ثبت میشود، دهها قابلیت گوناگون را در هم میآمیزد؛ مسئلهای که سبب میشود دقیقاً همان توانمندی خاص و حیاتی مورد نیاز پروژه شما، پشت این عدد پنهان بماند. چالش جدیتر، آلودگی دادههاست؛ از آنجا که دادههای معیارهای ارزیابی عمومی بارها تکرار میشوند، به مرور زمان بخشهایی از آنها به مجموعههای آموزشی مدلها نفوذ میکنند. در نتیجه، کسب نمره بالا لزوماً به معنای توانایی واقعی مدل نیست. افزون بر این، وظایف مدنظر شما بهندرت با آنچه در ارزیابیهای عمومی سنجیده میشود، انطباق کامل دارد.
یک مجموعه ارزیابی کوچک برای خود بسازید
راهکار مطمئن بسیار ساده است: چند ده نمونه واقعی از همان وظایفی را که قرار است به مدل واگذار کنید، همراه با پاسخهای صحیح گردآوری کنید. نیازی به حجم انبوهی از داده نیست؛ همین که این نمونهها نمایانگر کار واقعی شما باشند و حالتهای دشوار و مرزی را پوشش دهند، کفایت میکند. سپس مدلهای نامزد را با همین مجموعه بسنجید. این کار تنها چند ساعت زمان میبرد، اما برخلاف جدولهای رتبهبندی عمومی، نمای بسیار دقیقتری از عملکرد هر مدل در کار واقعی به دست میدهد.
پیوند معیار ارزیابی با پیامدهای شکست
پیش از آغاز ارزیابی، مشخص کنید که به هر یک از قابلیتها در چه سطحی نیاز دارید. این سطح نیاز باید بر اساس پیامدهای ناشی از بروز خطا تعیین شود، نه صرفاً دستیابی به بالاترین نمره ممکن. اگر بروز خطا در یک قابلیت تنها کمی آزاردهنده باشد، سطح حساسیت به آن پایین خواهد بود؛ اما اگر خطا به زیان مالی یا از دست رفتن اعتماد کاربران بینجامد، این سطح بحرانی است. سپس قاعدهای شفاف وضع کنید: تنها مدلی پذیرفته میشود که در تمامی قابلیتهای ضروری، حداقل به آستانه مورد نظر برسد. در نهایت، از میان مدلهایی که از این آستانه عبور میکنند، کوچکترین مدل را انتخاب کنید.
با تغییر معیار، برنده تغییر میکند
نکته کلیدی اینجاست: وقتی به جای تکیه بر نمرهای کلی، دقیقاً همان معیاری را بسنجید که برای پروژه شما اهمیت دارد، چیدمان مدلها اغلب تغییر میکند. مدلی که بر اساس ارزیابیهای عمومی ضعیفتر به نظر میرسد، ممکن است در همان قابلیت خاص مورد نیاز شما برترین عملکرد را داشته باشد؛ در مقابل، مدلی مطرح و نامآشنا ممکن است در کار مشخص شما ناکام بماند. جدولهای رتبهبندی عمومی تنها نشان میدهند مدلها به طور کلی چه عملکردی دارند، در حالی که یک مجموعه ارزیابی اختصاصی مشخص میکند کدام مدل برای نیاز واقعی شما مناسب است. برای تصمیمی درست، تنها به دومی نیاز دارید.
نمونهای از این رویکرد در عمل
زمانی ناچار بودیم برای خواندن اسناد مالی فارسی — مانند شناسنامه، صورتحساب بانکی، فیش حقوقی و مواردی از این دست — یک مدل بینایی انتخاب کنیم. به همین دلیل، دقیقاً همان مجموعهای را که پیشتر توصیف شد آماده کردیم: حدود دو دوجین سند واقعی، شامل قالبهای ساده و پیچیده که پاسخ هرکدام را یک ارزیاب انسانی بازبینی و تأیید کرده بود. سپس عملکرد مدلهای نامزد را با همان مجموعه ارزیابی کردیم.
نتایج بهدستآمده، تصورات ما را دگرگون کرد. قویترین گزینه، لزوماً بزرگترین مدل نبود؛ یک مدل میانرده پایدارترین عملکرد را داشت و هرگز دادههای ساختگی تولید نکرد، در حالی که یک مدل بزرگترِ متعلق به نسل قبل و یک مدل پرچمدار که چندین برابر آن وسعت داشت، هر دو در معیارهای کلی قابلیت اطمینان ناکام ماندند — هرچند همان مدل پرچمدار در خواندن دقیق مبالغ عددی، دقیقترین عملکرد را داشت. این دقیقاً همان تفاوتی است که نشان میدهد چرا باید آستانهٔ پذیرش خود را به قابلیتهایی گره بزنید که واقعاً برایتان اهمیت دارند. اما نشانهٔ تعیینکننده چیزی بود که فقط مجموعه داده خودمان میتوانست آن را آشکار کند: یکی از مدلها مقادیری ظاهراً معقول اما کاملاً ساختگی بازگرداند — پاسخهایی خوشنما اما نادرست که در هیچ نمرهٔ عمومی به چشم نمیآمدند. برای یک سناریوی مالی، همین یک مورد برای رد صلاحیت مدل کافی بود و ما تنها به این دلیل متوجه آن شدیم که پاسخهای مرجع خودمان را برای مقایسه در اختیار داشتیم.
یک یادداشت صادقانه، چرا که شفافیت در ارائه شواهد بخشی از اصول همین روش ارزیابی است: این یک مجموعه کوچک و گزیدهشده از حدود ۲۷ سند بود که بهجای تطابق دقیق متنی، بر پایه ارزیابی معنایی سنجیده شد. این فرآیند در اوایل سال ۲۰۲۶ روی نسخهای قدیمی از خط پردازش (pipeline) ما اجرا شد که از آن زمان تاکنون آن را کنار گذاشتهایم. بنابراین، این نتایج نه تضمینی برای عملکرد در محیط عملیاتی (production) است و نه یک نتیجهٔ محکِ رسمی؛ بلکه صرفاً نمونهای واقعی از دستاوردهایی است که ارزیابی روی دادههای اختصاصی خودتان نصیبتان میکند.