توسعه · سلسله

️ زیرساخت اجرای مدل

یک سلسله 4-قسمتی

مدل‌های زبانی بزرگ در عمل چگونه اجرا می‌شوند؟ این مجموعه ساختار داخلی موتور استنتاج را بررسی می‌کند: تفاوت میان دو مرحلهٔ pre-fill و decoding، نقش KV cache، فشرده‌سازی عددی وزن‌ها و روش‌های زمان‌بندی دسته‌ایِ درخواست‌ها. هدف، ترسیم تصویری روشن و مستقل از ارائه‌دهندگان تجاری است؛ درست از همان نقطه‌ای که هزینه و سرعت واقعی شکل می‌گیرند — دانشی پایه‌ای که فارغ از پشتهٔ فنی شما کارآمد خواهد بود.

️ زیرساخت اجرای مدل

PagedAttention و continuous batching: چگونه یک سرور به کاربران بیشتری پاسخ می‌دهد

MLP حافظه مدل است: دانش در کجا جای دارد؟

کوانتش دقیقاً چه می‌کند: افت دقت و فروپاشی فضای برداری

ابتدا ذخیره، سپس انتشار: قاعده‌ای ساده برای جلوگیری از دست رفتن کار