انتخاب مدل زبانی برای یک قابلیت مشخص، بیش از آنکه به جدولهای رتبهبندی بستگی داشته باشد، در گرو شناخت دقیق نیاز شماست. در ادامه، راهنمایی عملی و گامبهگام برای این کار ارائه شده است.
۱. کار را دقیق تعریف کنید
پیش از هر چیز مشخص کنید که مدل دقیقاً قرار است چه وظیفهای را انجام دهد و در میان تمام تواناییها، کدام قابلیت برای این کار تعیینکننده است. برای مثال، یک ابزار دستهبندی نیت کاربر نیازی به استدلالهای عمیق ندارد، در حالی که یک خلاصهساز متن به رعایت دقیق قالب خروجی نیازمند است. همین که قابلیت محوری را شناسایی کنید، نیمی از مسیر تصمیمگیری را پیمودهاید.
۲. سطح لازم را با پیامد شکست بسنجید
برای هر قابلیت، سطح عملکرد موردنیاز را بر اساس پیامدهای ناشی از خطا و شکست آن تعیین کنید، نه بر پایهٔ کسب بالاترین امتیاز ممکن. اگر بروز خطا صرفاً کمی آزاردهنده است، سطحی معمولی از عملکرد کافی خواهد بود؛ اما اگر خطا باعث از دست رفتن سرمایه یا اعتماد میشود، عملکرد مدل نقشی حیاتی دارد. این نگرش مانع از آن میشود که برای توان پردازشیِ فراتر از نیاز خود هزینه کنید.
۳. ببینید سامانهٔ پیرامونی چه چیزی را تضمین میکند
مدل تنها بخشی از کار را انجام میدهد. پیش از آنکه به مدل سخت بگیرید، بررسی کنید که سامانهٔ پیرامونیِ آن چه مواردی را از پیش آماده، بررسی یا اصلاح میکند. اگر خروجی مدل در مراحل بعدی اعتبارسنجی میشود، شاید لزومی نداشته باشد که مدل در ارائهٔ آن قابلیت کاملاً بینقص عمل کند.
۴. نیازهای عملی را فهرست کنید
در این مرحله به محدودیتهای عملیاتی بپردازید: طول زمینه (Context Window) موردنیاز برای کار (و به یاد داشته باشید که پشتیبانی از متنهای طولانی در تبلیغات، همیشه به معنای کارایی قابلاعتماد در عمل نیست)، قالب خروجی و ضرورت ساختاریافته بودن آن، میزان تأخیر مجاز، سقف هزینهها، و الزامات مربوط به میزبانی و حریم خصوصی. هر یک از این موارد به تنهایی میتواند گزینهای را از فهرست نامزدها حذف کند.
۵. کوچکترین مدلی که از پس کار برمیآید
از میان مدلهایی که تمامی نیازهای فوق را برآورده میکنند، کوچکترین گزینه را به عنوان پیشفرض انتخاب کنید. انتخاب مدل بزرگتر تنها زمانی توجیهپذیر است که مدل کوچکتر در یکی از قابلیتهای تعیینکننده آشکارا ناتوان باشد. مدل کوچکتر معمولاً به معنای سرعت بیشتر و هزینهٔ کمتر است.
۶. روی داده خودتان بسنجید
پیش از اتخاذ تصمیم نهایی، مدلهای نامزد را با چند ده نمونهٔ واقعی از دادههای خودتان آزمایش کنید. هیچ جدول رتبهبندی عمومیای نمیتواند جایگزین این ارزیابی کوچک و اختصاصی شود؛ زیرا تنها همین آزمون به شما نشان میدهد که کدام مدل برای کاربریِ خاص شما مناسب است.