فك التشفير التخميني: كيف يمكن أن يكون نموذجان LLM أسرع من واحد
Table of Contents
- مقدمة
- المشكلة: فك تشفير الانحدار الذاتي بطيء بشكل أساسي
- كيف يعمل فك التشفير التخميني
- متغيرات التقنية: EAGLE، Medusa، Draft Model
- رياضيات معدل القبول: متى يصل إلى نقطة التعادل؟
- نشر الإنتاج: EAGLE-3، vLLM، Cloud
- المقارنة: فك التشفير التخميني مقابل تقنيات تسريع الاستدلال الأخرى
- البدء: 3 طرق لتمكين فك التشفير التخميني اليوم
- الخاتمة والخطوات التالية
مقدمة
!Speculative decoding architecture: draft model + target model parallel inference flow
في عام 2023، نشر Google DeepMind ورقة بحثية تحدت بهدوء أحد أهم الافتراضات الأساسية للذكاء الاصطناعي القائم على المحولات: أن إنشاء نص رمزي واحد في كل مرة هو الطريقة الوحيدة للقيام بذلك. أطلقوا على هذه التقنية اسم «أخذ العينات التخمينية» - وسرعان ما اكتشف مجتمع البحث إمكاناتها على المستوى الصناعي تحت الشعار الأوسع لـ «فك التشفير التخميني»**.
اليوم، أصبح فك التشفير التخميني تقنية جاهزة للإنتاج ومفتوحة المصدر، ويجب على كل فريق جاد في خدمة الاستدلال أن يفهمها. إنه يحقق شيئًا كان يبدو متناقضًا في السابق: 2–3× عمليات تسريع في استدلال LLM دون التضحية حتى بذرة واحدة من جودة المخرجات. لقد قام كل من vLLM وTensorRT-LLM وHugging Face استدلال إنشاء النص وموفري الخدمات السحابية بشحن جميع التطبيقات على مستوى الإنتاج. أظهرت NVIDIA تحسينات في الإنتاجية بمعدل 3.6× باستخدام متغيرها الخاص (Arctic Inference) في ديسمبر 2025.
الفكرة غير البديهية بسيطة: تشغيل نموذجين أسرع من تشغيل نموذج واحد. لكن التنفيذ أنيق، فهو نسخة مختصرة مما يفعله كبار العلماء عندما يقومون بإعداد مساعد للقيام بالعمل الواضح أثناء التعامل مع القرارات الصعبة.
تتتبع هذه المقالة هذه التقنية من أصولها الرياضية من خلال عائلات التنفيذ الثلاث الرئيسية (مسودة الهدف، EAGLE، Medusa)، وحسابات معدل القبول التي تحكم عمليات التسريع، وبيانات قياس الإنتاج، ودليل ملموس لنشرها في مكدس الاستدلال الخاص بك.
المشكلة: فك تشفير الانحدار الذاتي بطيء بشكل أساسي
لفهم سبب نجاح فك التشفير التخميني، عليك أولاً أن تقدر مدى الاختناق الحقيقي لاستدلال LLM القياسي.
عنق الزجاجة الانحدار الذاتي
يكون إنشاء LLM القياسي متسلسلًا حسب التصميم. لإنتاج الرمز المميز التالي، يقوم النموذج بإجراء تمريرة أمامية كاملة - تحميل أوزان كل طبقة من VRAM، وحساب الانتباه على جميع الرموز المميزة السابقة، وإسقاط الحالة المخفية النهائية من خلال رأس نموذج اللغة، وأخذ عينات من الرمز المميز التالي. ثم كرر.
وهذا يعني أن كل رمز يتطلب دورة تحميل وزن كاملة. في وحدات معالجة الرسوميات الحديثة، تكون القدرة الحسابية هائلة، لكن تغذية هذه النوى الموترة تتطلب سحب الأوزان عبر ناقل ذاكرة محدود. النتيجة: استدلال LLM مرتبط بالذاكرة، وتقضي الوحدات الحسابية معظم وقتها في وضع الخمول، في انتظار قراءات VRAM.
هذا ليس خطأ في الأجهزة، بل هو نتيجة معمارية لتوليد الانحدار الذاتي. يتطلب إصلاحها اتباع نهج مختلف لحلقة التوليد.
لماذا لا يكفي التكميم بعد التدريب
تعمل تقنيات التسريع مثل تكميم INT4/INT8 وGPTQ وAWQ على تقليل أثر الوزن لكل تمريرة أمامية، مما يؤدي إلى جلب المزيد من الأوزان إلى ذاكرة التخزين المؤقت لكل دورة. ولكنها محدودة بشكل أساسي: تعمل على تقليل تكلفة كل خطوة تسلسلية، ولكنها لا تغير عدد الخطوات التسلسلية. لإنشاء 100 رمز، لا تزال بحاجة إلى 100 تمريرة أمامية - حتى لو كانت كل تمريرة أسرع.
ما تحتاجه فعليًا هو إنتاج رموز متعددة لكل تمريرة أمامية من النموذج الكبير عالي الجودة. يقوم فك التشفير التخميني بذلك دون المساس بالضمانات الإحصائية للإخراج.
كيف يعمل فك التشفير التخميني
يعمل فك التشفير التخميني (SD) على نموذج بسيط ولكنه قوي للمسودة ثم التحقق.
الخوارزمية الأساسية
الخطوة 1: تقترح مسودة الآلية رموز K مسبقًا
الخطوة 2: يتحقق النموذج المستهدف من جميع رموز مسودة K في تمريرة أمامية متوازية واحدة
الخطوة 3: يتم إلحاق أطول بادئة مقبولة لرموز المسودة بالمخرجات
الخطوة 4: تتكرر الدورة من آخر رمز مقبولالضمان الرياضي هو: التوزيع النهائي للمخرجات مطابق تمامًا لما سيولده النموذج المستهدف من تلقاء نفسه. ليس هناك تقريب، ولا فقدان للإخلاص.
فيما يلي المثال العملي من تنفيذ NVIDIA:
بادئة الإدخال:
"السريع"يقترح نموذج المسودة:بني←ثعلبي←قافز←فوقيتحقق النموذج المستهدف من جميع الرموز الأربعة بالتوازي:
بني= ✅ (P_target ≥ P_draft)الثعلب= ✅ (P_target ≥ P_draft)قفز= ❌ (P_target << P_draft)انتهى= ❌ (مهمل - الرفض الأول)يقوم النموذج المستهدف بإنشاء الاستمرارية المصححة من
"الثعلب البني السريع"→قفز→ال→كسول→كلب
النتيجة: رمزان مقبولان من أصل 3 جولات تخمينية لتسريع ~1 + α × γ، حيث α هو معدل القبول وγ هو عدد الرموز المميزة للمضاربة المقترحة لكل رواختصار الثاني.
الحدس الرئيسي
التسريع = 1 / (1 - α × γ) حيث:
- α (alpha) = جزء من الرموز المميزة المقبولة بواسطة النموذج المستهدف، من 0.0 إلى 1.0
- γ (جاما) = عدد رموز المضاربة المقترحة لكل جولة مسودة
تكشف هذه الصيغة سبب أهمية جودة مسودة النموذج بشكل كبير:
- عند α = 0.8، γ = 5: التسريع ≈
1 / (1 - 0.8 × 5) = 1 / 0 = ∞→ لا نهائي فعليًا (كل جولة تقبل كل 5 = تم) - بشكل أكثر واقعية α = 0.5، γ = 4: التسريع ≈
1 / (1 - 2.0) = −1 / 1 = 1.0×→ لا يوجد تسريع (معايرة النموذج سيئة)
اسم اللعبة هو جعل α أقرب ما يكون إلى 1.0 قدر الإمكان. وهذا هو السبب في أن تصميم نموذج المسودة، وليس مجرد النشر، هو الرافعة الحاسمة.
متغيرات التقنية: EAGLE، Medusa، Draft Model
لا توجد طريقة واحدة لتنفيذ فك التشفير التخميني. يقوم كل نهج بإجراء مقايضات مختلفة بين تعقيد النشر وسقف التسريع والدقة.
1. نموذج المسودة (كلاسيكي)
الصيغة الأصلية: نموذج مسودة أصغر وأسرع (على سبيل المثال، متغير مقطر أو كمي للهدف، غالبًا ما يكون 4-10× معلمات أقل) يعمل بشكل انحداري لاقتراح رموز γ. ثم يتم التحقق من النموذج المستهدف.
- الإيجابيات: سهل الإعداد، ومدروس جيدًا، ويعمل مع أي عائلة نموذجية
- السلبيات: لا مفر من أن تتباين التوزيعات المسودة والمستهدفة، بحيث يكون الحد الأقصى لـ α حوالي 0.5-0.7 في العديد من سيناريوهات العالم الحقيقي
- الأفضل لـ: الاستدلال للأغراض العامة، والمهام شديدة التنوع (الكتابة الإبداعية، والدردشة المفتوحة)
2. EAGLE (خوارزمية الاستقراء لزيادة كفاءة نموذج اللغة)
يستبدل EAGLE نموذج المسودة المنفصل بـ رأس تنبؤ خفيف الوزن متصل مباشرة بالتمثيلات الداخلية للنموذج المستهدف. فهو يأخذ مخرجات الحالة المخفية من الطبقات الداخلية للنموذج المستهدف (قبل رأس LM) ويعرضها - في تمريرة أمامية واحدة - إلى شجرة كاملة من الرموز المميزة التالية للمرشح في وقت واحد.
- يضيف EAGLE-3 تمثيلات ميزات مدمجة متعددة الطبقات (تضمينات منخفضة ومتوسطة وعالية المستوى)
- يستخدم التحقق الموازي القائم على الشجرة — يتم استكشاف فرضيات الرموز المميزة المتعددة في وقت واحد في مسودة شجرة، ثم التحقق منها في دفعة واحدة
- لا يلزم وجود نموذج مسودة منفصل - يستخدم ** ذاكرة التخزين المؤقت KV الخاصة بالنموذج المستهدف والحالات الداخلية **
النتائج: حقق EAGLE-3 سرعة تبلغ 3.0–6.5× مقارنة بفك تشفير الانحدار الذاتي وتحسينًا بنسبة 20–40% مقارنة بـ EAGLE-2 (arXiv 2503.01840).
: هندسة رأس النسر
┌─────────────────── ───────────────────┐
│ نموذج الهدف (الأوزان المجمدة) │
│ ... الطبقة 28: تم استخراج الحالة المخفية │
│ ... الطبقة 24: تم استخراج الحالة المخفية │
│ ... الطبقة 20: تم استخراج الحالة المخفية │
└────────────┬────── ───────────────────┘
│ ميزة متعددة الطبقات متزامنة
┌────────▼─────────┐
│ رأس النسر │ ← صغير الحجم وقابل للتدريب (~نسبة قليلة من
│ (خطي + معياري │ معلمات النموذج المستهدف)
│ + سوفت ماكس LM) │
└─────────────────┘
│
شجرة المسودة من رموز K
│
┌────────▼──────────┐
│ رأس LM المستهدف │ ← يحول الحالات المخفية → احتمالات الرمز المميز
└────────────────┘
تمريرة أمامية واحدة = تم التحقق من الشجرة بأكملها- الإيجابيات: أعلى قيمة α في الممارسة العملية (0.7–0.9+)، لا يوجد نموذج منفصل للخدمة، عدم تطابق التوزيع صفر
- السلبيات: يتطلب إرفاق رأس لكل نموذج مستهدف وتدريبه؛ يجب ضبط الرأس بدقة لكل عائلة نموذجية
- الأفضل بالنسبة: خدمات استدلال الإنتاج حيث يكون معدل القبول هو عنق الزجاجة
3. ميدوسا (فك التشفير متعدد الرؤوس)
تتخذ ميدوسا نهجًا مختلفًا من الناحية الهيكلية: فبدلاً من آلية مسودة منفصلة، فإنها تضيف رؤوس تنبؤ إضافية مباشرة فوق نموذج LLM المجمد. يتنبأ كل رأس بموقع رمزي مستقبلي مختلف:
: إعداد ميدوسا متعدد الرؤوس
┌────────────────────────┐
│ نموذج LLM الأساسي (مجمد) │
└────────┬───────────────┘
│ الحالة المخفية في الموضع t
┌──────▼──────┐
│ LM Head 0 │ → يتنبأ بالرمز المميز t+1
│ LM Head 1 │ → يتنبأ بالرمز المميز t+2
│ LM Head 2 │ → يتنبأ بالرمز المميز t+3
│ LM Head 3 │ → يتنبأ بالرمز المميز t+4
└──────┬───────┘
│
رموز المسودة [t+1، t+2، t+3، t+4]
│
┌──────▼────────────-┐
│ يتم التحقق من الهدف LM │
│ الكل في تمريرة واحدة │
└───────────────────┘- الإيجابيات: يظل النموذج الأصلي مجمدًا تمامًا، ولا يوجد أي عبء إضافي على وقت الاستدلال لآلية الصياغة، كما أن تدريب رؤوس ميدوسا أمر بسيط.
- السلبيات: يميل معدل القبول إلى التأخر عن EAGLE في البرامج ذات الأفق الطويلكانساس؛ أداء رؤوس ميدوسا ضعيف في سلاسل التفكير المعقدة
- الأفضل لـ: الفرق التي يمكنها تحسين نموذجها المستهدف، لا تحتاج إلى أي استنتاجات إضافية عند إنشاء المسودة
ملحوظة: Medusa يسبق EAGLE ولكنه يظل خيارًا عمليًا - خاصة بالنسبة لبنية عنق الزجاجة Medusa-2 مفتوحة المصدر وامتداد Hydra لاعتماد الرأس المتسلسل.
رياضيات معدل القبول: متى يصل إلى نقطة التعادل؟
فك التشفير التخميني ليس مجانيًا - كل جولة مضاربة لها تكلفة حسابية يجب استردادها عن طريق تجنب التمريرات الأمامية المتسلسلة. التعادل هو:
صافي التسريع > 1.0 عندما: γ × α > 1حيث γ هو عدد الرموز المميزة للمضاربة و α هو معدل القبول.
المعايير التجريبية من عمليات النشر الحقيقية
استخدام Llama-3.1-8B-Instruct كنموذج مستهدف مع زمن استجابة E2E أساسي يبلغ 4,065 مللي ثانية (من اختبار BentoML patched-vLLM):
الوجبات الجاهزة العملية: آلية المسودة جيدة التصميم التي تحقق α ≥ 0.6 مع γ ≥ 5 هي الحد الأدنى للتسريع المجدي. عند α ≥ 0.8، يمكن تحقيق عمليات تسريع دراماتيكية 3×+. وهذا هو بالضبط السبب وراء تقارب صياغة مستوى الميزات الخاصة بـ EAGLE بشكل فعال - فهي تتجنب عدم تطابق التوزيع الذي يحافظ على الحد الأقصى لنموذج المسودة α عند 0.5-0.65.
نشر الإنتاج: EAGLE-3، vLLM، Cloud
vLLM: الإنتاج الافتراضي
يأتي الإصدار vLLM v0.8.4+ مزودًا بـ 7 طرق تخمين مدمجة:
vllm يخدم اللاما الفوقية/Llama-3-8B-Instruct \
--التكوين المضاربي '{
"الطريقة": "النسر 3"،
"num_speculative_tokens": 7
}'تتعامل العلامة --speculative-config المضمنة مع جميع مسك الدفاتر لذاكرة التخزين المؤقت لـ KV، وانتباه الشجرة، وأخذ عينات الرفض داخليًا. يتبع الامتداد إلى أطر العمل الأخرى (HuggingFace TGI وSGLang) نفس النمط - يؤدي تبديل التكوين الواحد إلى زيادة السرعة بمقدار 2–3×.
نفيديا الاستدلال القطبي الشمالي
من أجل دفع EAGLE إلى أبعد من ذلك، يوفر Arctic Inference من NVIDIA أعلى إنتاجية لفك التشفير التخميني على وحدات معالجة الرسومات NVIDIA، والتي تم تحسينها خصيصًا بموجب آلية التأجيل الخاصة بـ TensorRT-LLM وvLLM. تُظهر المعايير في Llama-3.1-70B أن Arctic Inference يحقق كسب إنتاجية بمعدل 3.6× مقارنة بفك تشفير الانحدار التلقائي القياسي (ميزة vLLM v0.8.5+).
تدريب AWS
نشرت AWS نتائج تشغيل فك التشفير التخميني على مسرعات Trainium المخصصة الخاصة بها باستخدام vLLM. النتيجة الرئيسية: بالنسبة لأحمال العمل الثقيلة لفك التشفير (نموذجي لإنشاء نمط chatbot مع نوافذ سياق معتدلة)، أدى فك التشفير التخميني إلى تقليل زمن الوصول الإجمالي لكل طلب بعامل يتراوح بين 1.4 و1.8 عبر عائلة النماذج التي تم اختبارها، مع الحفاظ على دقة النموذج المستهدف بنسبة ∼ 100%.
مشروع التدريب النموذجي
بالنسبة لفك التشفير التخميني على طراز مسودة النموذج، يجب أن يشترك نموذج المسودة بشكل مثالي في نفس البنية والرمز المميز كالهدف. وجد فريق BentoML أن تدريب نموذج مسودة مخصص مطابق خصيصًا لتوزيع عبء العمل الاستدلالي أدى إلى معدلات قبول أعلى بشكل كبير مقابل نماذج المسودة العامة الجاهزة - ما يصل إلى 3× تسريع مقابل خطوط الأساس المتسلسلة مقابل 1.8-2.0× فقط مع أدوات الصياغة العامة.
المقارنة: فك التشفير التخميني مقابل تقنيات تسريع الاستدلال الأخرى
: مقارنة تقنية تسريع
┌─────────────────────────── ──┬────────────┬───────────┐
│ التقنية │ التسريع │ التكلفة │
├─────────────────────────── ──┼────────────┼──────────────┤
│ تكميم INT4 / INT8 │ 1.2–1.5× │ ✓ مجاني │
│ GPTQ / AWQ (4 بت) │ 1.5–2.0× │ ✓ مجاني │
│ تكميم ذاكرة التخزين المؤقت KV (KVCache) │ 1.1–1.3× │ ✓ مجاني │
│ التجميع المستمر (vLLM) │ 1.5–5.0× │ ✓ مجاني │
│ فك التشفير التخميني (EAGLE) │ 1.5–6.5× │ 1–2% معلمات │
│ فك التشفير التخميني (EAGLE-3) │ 2.0–6.5× │ 1–2% معلمات │
│ **BitNet b1.58 (1.58 بت)** │ 2–5× │ ⚠ إعادة التدريب │
│ التقطير (TinyLlama، وما إلى ذلك) │ 1.0–1.3× │ تكلفة عالية │
└─────────────────────────── ──┴────────────┴───────────┘ملاحظة: يحقق BitNet b1.58 إنتاجية خام مماثلة من آلية مختلفة تمامًا - حيث ينخفض من أوزان FP16 إلى الثلاثي {-1، 0، +1}. فهو يغطي بُعد الكفاءة بالكامل، بينما يغطي فك التشفير التخميني بُعد السرعة لكل رمز. إنها ليست بدائل. أنها تكمل بعضها البعض.
البدء: 3 طرق لتمكين فك التشفير التخميني اليوم
الخيار 1: vLLM (EAGLE، صفر تكوين خارج العلامة)
## يقوم vLLM القياسي بتحديد EAGLE-3 تلقائيًا إذا كان متاحًا للنموذج
vllm يخدم meta-llama/Llama-3.1-8B-Instruct \
--speculative-config '{"method": "eagle3"، "num_speculative_tokens": 5}'المعيار مع البرنامج النصي المدمج:
أمثلة/ميزات python3/speculative_decoding/spec_decode_offline.py \
--نموذج meta-llama/Llama-3.1-8B-Instructالخيار 2: TensorRT-LLM (EAGLE + الاستدلال القطبي الشمالي)
من Tensorrt_llm استيراد LLM، SamplingParams
إلم = إل إل إم (
نموذج = "ميتا اللاما/اللاما-3.1-8B-إرشاد"،
speculative_config={
"الموديل": "sg2018/EAGLE-llama3.1-8B"،
"طريقة": "نسر"،
"num_speculative_tokens": 5،
}
)الخيار 3: استنتاج إنشاء نص HuggingFace (Medusa عبر Offload)
يدعم TGI فك التشفير التخميني من خلال معلمة draft_model:
خادم إنشاء النص --معرف النموذج التعريفي اللاما/Llama-3-8B-Instruct \
--تخمين نموذج المسودة:meta-llama/Llama-3-8B-Instruct \
- توقع الحد الأقصى 5الخاتمة والخطوات التالية
يعد فك التشفير التخميني أحد تلك التقنيات النادرة حيث تكون النظرية أنيقة ** و** المردود الهندسي حقيقي وفوري. وفي هذه المرحلة من عام 2025، تم:
- ✅ الضمان النظري: الناتج مطابق رياضيًا لتوليد الانحدار الذاتي للفانيليا
- ✅ تطبيقات إنتاج متعددة: vLLM، وTensorRT-LLM، وTGI، والمكدسات السحابية الأصلية
- ✅ 3.0–6.5× عمليات تسريع في العالم الحقيقي في عمليات نشر الإنتاج المعيارية
- ✅ تكلفة الجودة صفر: يقبل فقط الرموز المميزة التي تم التحقق من النموذج المستهدف؛ ويضمن الإخراج الصحيح
- ✅ قابلية الدمج: مكدسات مع التكميم، وتحسين ذاكرة التخزين المؤقت KV، والدفع المستمر للتسريعات المركبة
النصيحة العملية لأي فريق يخدم LLM اليوم: افصل الصياغة عن الجيل، واختر مسارًا سريعًا (EAGLE-3 أو Medusa لعائلات نماذج الدرجة الأولى، أو N-gram أو لاحقة للحالات ذات النفقات العامة الصفرية)، وقياس α الخاص بك على عبء العمل الخاص بك - لأن أرقام التسريع النظرية لا تقل جودة عن معدل القبول الحقيقي الخاص بك.
ما يمكنك فعله اليوم:
- 🚀 تمكين فك التشفير التخميني لـ vLLM: علامة واحدة، عدم تغيير الكود، تسريع 2–3× على أي نموذج مدعوم في دقائق
- 📊 اختبر نفسك:
python3 examples/features/speculative_decoding/spec_decode_offline.py— قياس زمن الاستجابة α وTPS وE2E في عبء عملك - 📚 اقرأ الأوراق التأسيسية: Speculative Sampling (DeepMind, 2023) · EAGLE (2024) · EAGLE-3 (2025) · ميدوسا (2024)
- 🔧 **ضبط رأس ميدوسا: إذا كنت تمتلك النموذج المستهدف ويمكنك تشغيل بعض فترات التدريب، فإن ميدوسا تمنحك آلية سحب بدون تكلفة إضافية بدون تكلفة خدمة منفصلة
فك التشفير التخميني ليس تقنية مستقبلية. إنه هنا، في مكدس الاستدلال الخاص بك، جاهز ليكون علامة واحدة بعيدًا عن تحويل 100 رمز مميز في الثانية إلى 300. سيقوم المهندسون الذين يقومون بتمكينه أولاً بنشر أرخص، وتشغيل أكثر برودة، وخدمة مستخدمين أكثر سعادة - دون المساس بنقطة واحدة من الدقة.