مدل‌ها را با داده‌های خودتان ارزیابی کنید، نه با جدول‌های عمومی

جدول‌های رتبه‌بندی عمومی کمتر از آنچه فکر می‌کنید درباره کار شما می‌گویند. راهکار مطمئن این است: یک مجموعه ارزیابی کوچک و معرف کار واقعی خود بسازید و گزینه‌ها را با همان ارزیابی کنید.

با معرفی هر مدل جدید، معمولاً نخستین قدم، بررسی جایگاه آن در جدول‌های رتبه‌بندی عمومی است. با این حال، این جدول‌ها بسیار کمتر از آنچه تصور می‌کنیم، درباره عملکرد واقعی مدل در کارهای واقعی ما اطلاعاتی به دست می‌دهند.

مشکل جدول‌های عمومی

تک‌عددی که در جدول رتبه‌بندی به عنوان نمره نهایی ثبت می‌شود، ده‌ها قابلیت گوناگون را در هم می‌آمیزد؛ مسئله‌ای که سبب می‌شود دقیقاً همان توانمندی خاص و حیاتی مورد نیاز پروژه شما، پشت این عدد پنهان بماند. چالش جدی‌تر، آلودگی داده‌هاست؛ از آنجا که داده‌های معیارهای ارزیابی عمومی بارها تکرار می‌شوند، به مرور زمان بخش‌هایی از آن‌ها به مجموعه‌های آموزشی مدل‌ها نفوذ می‌کنند. در نتیجه، کسب نمره بالا لزوماً به معنای توانایی واقعی مدل نیست. افزون بر این، وظایف مدنظر شما به‌ندرت با آنچه در ارزیابی‌های عمومی سنجیده می‌شود، انطباق کامل دارد.

یک مجموعه ارزیابی کوچک برای خود بسازید

راهکار مطمئن بسیار ساده است: چند ده نمونه واقعی از همان وظایفی را که قرار است به مدل واگذار کنید، همراه با پاسخ‌های صحیح گردآوری کنید. نیازی به حجم انبوهی از داده نیست؛ همین که این نمونه‌ها نمایانگر کار واقعی شما باشند و حالت‌های دشوار و مرزی را پوشش دهند، کفایت می‌کند. سپس مدل‌های نامزد را با همین مجموعه بسنجید. این کار تنها چند ساعت زمان می‌برد، اما برخلاف جدول‌های رتبه‌بندی عمومی، نمای بسیار دقیق‌تری از عملکرد هر مدل در کار واقعی به دست می‌دهد.

پیوند معیار ارزیابی با پیامدهای شکست

پیش از آغاز ارزیابی، مشخص کنید که به هر یک از قابلیت‌ها در چه سطحی نیاز دارید. این سطح نیاز باید بر اساس پیامدهای ناشی از بروز خطا تعیین شود، نه صرفاً دستیابی به بالاترین نمره ممکن. اگر بروز خطا در یک قابلیت تنها کمی آزاردهنده باشد، سطح حساسیت به آن پایین خواهد بود؛ اما اگر خطا به زیان مالی یا از دست رفتن اعتماد کاربران بینجامد، این سطح بحرانی است. سپس قاعده‌ای شفاف وضع کنید: تنها مدلی پذیرفته می‌شود که در تمامی قابلیت‌های ضروری، حداقل به آستانه مورد نظر برسد. در نهایت، از میان مدل‌هایی که از این آستانه عبور می‌کنند، کوچک‌ترین مدل را انتخاب کنید.

با تغییر معیار، برنده تغییر می‌کند

نکته کلیدی اینجاست: وقتی به جای تکیه بر نمره‌ای کلی، دقیقاً همان معیاری را بسنجید که برای پروژه شما اهمیت دارد، چیدمان مدل‌ها اغلب تغییر می‌کند. مدلی که بر اساس ارزیابی‌های عمومی ضعیف‌تر به نظر می‌رسد، ممکن است در همان قابلیت خاص مورد نیاز شما برترین عملکرد را داشته باشد؛ در مقابل، مدلی مطرح و نام‌آشنا ممکن است در کار مشخص شما ناکام بماند. جدول‌های رتبه‌بندی عمومی تنها نشان می‌دهند مدل‌ها به طور کلی چه عملکردی دارند، در حالی که یک مجموعه ارزیابی اختصاصی مشخص می‌کند کدام مدل برای نیاز واقعی شما مناسب است. برای تصمیمی درست، تنها به دومی نیاز دارید.

نمونه‌ای از این رویکرد در عمل

زمانی ناچار بودیم برای خواندن اسناد مالی فارسی — مانند شناسنامه، صورت‌حساب بانکی، فیش حقوقی و مواردی از این دست — یک مدل بینایی انتخاب کنیم. به همین دلیل، دقیقاً همان مجموعه‌ای را که پیش‌تر توصیف شد آماده کردیم: حدود دو دوجین سند واقعی، شامل قالب‌های ساده و پیچیده که پاسخ هرکدام را یک ارزیاب انسانی بازبینی و تأیید کرده بود. سپس عملکرد مدل‌های نامزد را با همان مجموعه ارزیابی کردیم.

نتایج به‌دست‌آمده، تصورات ما را دگرگون کرد. قوی‌ترین گزینه، لزوماً بزرگ‌ترین مدل نبود؛ یک مدل میان‌رده پایدارترین عملکرد را داشت و هرگز داده‌های ساختگی تولید نکرد، در حالی که یک مدل بزرگ‌ترِ متعلق به نسل قبل و یک مدل پرچم‌دار که چندین برابر آن وسعت داشت، هر دو در معیارهای کلی قابلیت اطمینان ناکام ماندند — هرچند همان مدل پرچم‌دار در خواندن دقیق مبالغ عددی، دقیق‌ترین عملکرد را داشت. این دقیقاً همان تفاوتی است که نشان می‌دهد چرا باید آستانهٔ پذیرش خود را به قابلیت‌هایی گره بزنید که واقعاً برایتان اهمیت دارند. اما نشانهٔ تعیین‌کننده چیزی بود که فقط مجموعه داده خودمان می‌توانست آن را آشکار کند: یکی از مدل‌ها مقادیری ظاهراً معقول اما کاملاً ساختگی بازگرداند — پاسخ‌هایی خوش‌نما اما نادرست که در هیچ نمرهٔ عمومی به چشم نمی‌آمدند. برای یک سناریوی مالی، همین یک مورد برای رد صلاحیت مدل کافی بود و ما تنها به این دلیل متوجه آن شدیم که پاسخ‌های مرجع خودمان را برای مقایسه در اختیار داشتیم.

یک یادداشت صادقانه، چرا که شفافیت در ارائه شواهد بخشی از اصول همین روش ارزیابی است: این یک مجموعه کوچک و گزیده‌شده از حدود ۲۷ سند بود که به‌جای تطابق دقیق متنی، بر پایه ارزیابی معنایی سنجیده شد. این فرآیند در اوایل سال ۲۰۲۶ روی نسخه‌ای قدیمی از خط پردازش (pipeline) ما اجرا شد که از آن زمان تاکنون آن را کنار گذاشته‌ایم. بنابراین، این نتایج نه تضمینی برای عملکرد در محیط عملیاتی (production) است و نه یک نتیجهٔ محکِ رسمی؛ بلکه صرفاً نمونه‌ای واقعی از دستاوردهایی است که ارزیابی روی داده‌های اختصاصی خودتان نصیبتان می‌کند.