Spekulative Dekodierung: Wie zwei LLMs schneller sein können als einer
Table of Contents
- Einführung
- Das Problem: Die autoregressive Dekodierung ist grundsätzlich langsam
- Wie spekulative Dekodierung funktioniert
- Die Akzeptanzraten-Mathematik: Wann erreicht sie die Gewinnschwelle
- Produktionsbereitstellung: EAGLE-3, vLLM, Cloud
- Vergleich: Spekulative Dekodierung im Vergleich zu anderen Inferenzbeschleunigungstechniken
- Erste Schritte: 3 Möglichkeiten, spekulative Dekodierung noch heute zu ermöglichen
- Fazit und nächste Schritte
Einführung
!Speculative decoding architecture: draft model + target model parallel inference flow
Im Jahr 2023 veröffentlichte Google DeepMind einen Artikel, der sich stillschweigend einer der grundlegendsten Annahmen transformatorbasierter KI widersetzte: dass die Generierung von Text Token für Text der einzige Weg sei, dies zu erreichen. Sie nannten die Technik spekulatives Sampling – und die Forschungsgemeinschaft entdeckte schnell ihr Potenzial im industriellen Maßstab unter dem breiteren Banner der spekulativen Dekodierung.
Heutzutage ist die spekulative Dekodierung eine produktionsreife Open-Source-Technologie, die jedes ernsthafte Team, das Schlussfolgerungen erstellt, verstehen sollte. Es erreicht etwas, das zuvor widersprüchlich schien: 2- bis 3-fache Beschleunigung der LLM-Inferenz, ohne auch nur ein Jota an Ausgabequalität zu opfern. vLLM, TensorRT-LLM, Hugging Face „text-generation-inference“ und Cloud-Anbieter haben alle Implementierungen in Produktionsqualität ausgeliefert. NVIDIA demonstrierte im Dezember 2025 mit seiner eigenen Variante (Arctic Inference) eine 3,6-fache Durchsatzverbesserung.
Die kontraintuitive Erkenntnis ist einfach: Das Ausführen von zwei Modellen ist schneller als das Ausführen von einem. Aber die Umsetzung ist elegant – eine komprimierte Version dessen, was Chefwissenschaftler tun, wenn sie einen Assistenten darauf vorbereiten, die offensichtliche Arbeit zu erledigen, während er die schwierigen Entscheidungen trifft.
In diesem Artikel wird die Technik von ihren mathematischen Ursprüngen über die drei wichtigsten Implementierungsfamilien (Draft-Target, EAGLE, Medusa), die Akzeptanzratenmathematik, die Beschleunigungen steuert, Produktions-Benchmarking-Daten und eine konkrete Anleitung für die Bereitstellung in Ihrem eigenen Inferenzstapel nachgezeichnet.
Das Problem: Die autoregressive Dekodierung ist grundsätzlich langsam
Um zu verstehen, warum die spekulative Dekodierung funktioniert, müssen Sie zunächst verstehen, wie eng die Standard-LLM-Inferenz tatsächlich ist.
Der autoregressive Flaschenhals
Die Standard-LLM-Generierung erfolgt sequentiell. Um den nächsten Token zu erzeugen, führt das Modell einen vollständigen Vorwärtsdurchlauf durch – es lädt die Gewichte jeder Schicht aus dem VRAM, berechnet die Aufmerksamkeit für alle vorherigen Token, projiziert den endgültigen verborgenen Zustand durch den Kopf des Sprachmodells und tastet den nächsten Token ab. Dann wiederholen.
Das bedeutet, dass jeder Token einen vollständigen Gewichts-Belastungs-Zyklus erfordert. Auf modernen GPUs ist die Rechenleistung enorm – aber um diese Tensorkerne zu versorgen, müssen Gewichte über einen endlichen Speicherbus gezogen werden. Das Ergebnis: LLM-Inferenz ist speichergebunden und die Recheneinheiten verbringen einen Großteil ihrer Zeit im Leerlauf und warten auf VRAM-Lesevorgänge.
Dies ist kein Hardwarefehler, sondern eine architektonische Konsequenz der autoregressiven Generierung. Um das Problem zu beheben, ist ein anderer Ansatz für die Generierungsschleife erforderlich.
Warum die Quantisierung nach dem Training nicht ausreicht
Beschleunigungstechniken wie INT4/INT8-Quantisierung, GPTQ und AWQ reduzieren den Gewichtungsbedarf pro Vorwärtsdurchlauf und bringen mehr Gewichte pro Zyklus in den Cache. Aber sie sind grundsätzlich begrenzt: Sie reduzieren die Kosten jedes aufeinanderfolgenden Schritts, aber sie ändern nicht die Anzahl der aufeinanderfolgenden Schritte. Um 100 Token zu generieren, benötigen Sie immer noch 100 Vorwärtspässe – auch wenn jeder Pass schneller ist.
Was Sie tatsächlich benötigen, ist, aus dem großen, hochwertigen Modell mehrere Token pro Vorwärtsdurchlauf zu produzieren. Die spekulative Decodierung ermöglicht dies, ohne die statistischen Garantien der Ausgabe zu beeinträchtigen.
Wie spekulative Dekodierung funktioniert
Die spekulative Dekodierung (SD) basiert auf einem einfachen, aber leistungsstarken Entwurfs- und dann Überprüfungsparadigma.
Der Kernalgorithmus
„ Schritt 1: Der Entwurfsmechanismus schlägt im Voraus K-Token vor Schritt 2: Das Zielmodell überprüft ALLE K Draft-Token in einem EINZIGEN parallelen Vorwärtsdurchlauf Schritt 3: Das längste akzeptierte Präfix von Draft-Tokens wird an die Ausgabe angehängt Schritt 4: Der Zyklus wiederholt sich ab dem letzten akzeptierten Token „
Die mathematische Garantie lautet: Die endgültige Ausgabeverteilung ist genau identisch mit dem, was das Zielmodell selbst generieren würde. Es gibt keine Annäherung, keinen Verlust an Wiedergabetreue.
Hier ist das ausgearbeitete Beispiel aus der NVIDIA-Implementierung:
Präfix eingeben: „Der Schnelle“. Modellentwurf schlägt vor: „braun“ → „Fuchs“ → „gehüpft“ → „über“. Zielmodell verifiziert alle 4 Token parallel:
braun= ✅ (P_target ≥ P_draft)fox= ✅ (P_target ≥ P_draft)hopped= ❌ (P_target << P_draft)over= ❌ (verworfen – erste Ablehnung)Zielmodell generiert die korrigierte Fortsetzung von „Der schnelle Braunfuchs“. → „gesprungen“ → „der“ → „faul“ → „Hund“.
Ergebnis: 2 akzeptierte Token aus 3 spekulativen Runden für eine Beschleunigung von ~1 + α × γ, wobei „α“ die Akzeptanzrate und „γ“ die Anzahl der pro Runde vorgeschlagenen spekulativen Token istnd.
Die Schlüsselintuition
Beschleunigung = 1 / (1 - α × γ) wobei:
- α (Alpha) = Anteil der vom Zielmodell akzeptierten Draft-Tokens, von 0,0 bis 1,0
- γ (Gamma) = Anzahl der pro Draft-Runde vorgeschlagenen spekulativen Token
Diese Formel zeigt, warum die Qualität des Entwurfsmodells enorm wichtig ist:
- Bei α = 0,8, γ = 5: Beschleunigung ≈
1 / (1 - 0,8 × 5) = 1 / 0 = ∞→ effektiv unendlich (jede Runde akzeptiert alle 5 = erledigt) - Realistischer ist α = 0,5, γ = 4: Beschleunigung ≈
1 / (1 - 2,0) = −1 / 1 = 1,0×→ keine Beschleunigung (Modell schlecht kalibriert)
Es geht darum, α so nah wie möglich an 1,0 zu bringen. Aus diesem Grund ist der Entwurf des Modellentwurfs und nicht nur die Bereitstellung der entscheidende Hebel.
##Technikvarianten: EAGLE, Medusa, Draft Model
Es gibt keine einheitliche Möglichkeit, spekulative Dekodierung zu implementieren. Jeder Ansatz geht unterschiedliche Kompromisse zwischen der Komplexität der Bereitstellung, der Beschleunigungsobergrenze und der Genauigkeit ein.
1. Entwurfsmodell (klassisch)
Die ursprüngliche Formulierung: Ein kleineres, schnelleres Entwurfsmodell (z. B. eine destillierte oder quantisierte Variante des Ziels, oft 4–10x weniger Parameter) läuft autoregressiv, um γ-Tokens vorzuschlagen. Anschließend wird das Zielmodell überprüft.
- Vorteile: Einfach einzurichten, gut durchdacht, funktioniert mit jeder Modellfamilie
- Nachteile: Entwurfs- und Zielverteilung weichen zwangsläufig voneinander ab und begrenzen α in vielen realen Szenarien auf etwa 0,5–0,7
- Am besten geeignet: Allgemeine Schlussfolgerungen, Aufgaben mit hoher Vielfalt (kreatives Schreiben, offener Chat)
2. EAGLE (Extrapolationsalgorithmus für eine höhere Effizienz des Sprachmodells)
EAGLE ersetzt das separate Entwurfsmodell durch einen leichten Vorhersagekopf, der direkt an den internen Darstellungen des Zielmodells angebracht ist. Es übernimmt die Hidden-State-Ausgaben aus den internen Schichten des Zielmodells (vor dem LM-Kopf) und projiziert sie – in einem einzigen Vorwärtsdurchlauf – gleichzeitig auf einen gesamten Baum von möglichen nächsten Token.
- EAGLE-3 fügt mehrschichtige Fusions-Feature-Darstellungen hinzu (Einbettungen auf niedriger, mittlerer und hoher Ebene)
- Verwendet baumbasierte parallele Verifizierung – mehrere Token-Hypothesen werden gleichzeitig in einem Entwurfsbaum untersucht und dann in einem Stapel überprüft
- Kein separates Entwurfsmodell erforderlich – verwendet den KV-Cache und interne Zustände des Zielmodells
Ergebnisse: EAGLE-3 erreicht eine 3,0- bis 6,5-fache Geschwindigkeitssteigerung gegenüber der autoregressiven Vanilla-Dekodierung und eine 20- bis 40-prozentige Verbesserung gegenüber EAGLE-2 (arXiv 2503.01840).
„ : EAGLE Head Architecture ┌───────────────────── ─────────────────────┐ │ Zielmodell (eingefrorene Gewichte) │ │ ... Schicht 28: Hidden_State extrahiert │ │ ... Schicht 24: Hidden_state extrahiert │ │ ... Schicht 20: Hidden_State extrahiert │ └──────────────┬────── ─────────────────────┘ │ Multi-Layer-Feature-Konkat ┌────────▼─────────┐ │ EAGLE Kopf │ ← winzig, trainierbar (~wenige % von │ (linear + Norm │ Zielmodellparameter) │ + Softmax LM) │ └────────┬──────────┘ │ Entwurfsbaum von K-Tokens │ ┌────────▼──────────┐ │ Ziel-LM-Kopf │ ← wandelt versteckte Zustände → Token-Wahrscheinlichkeiten um └──────────────────┘ Einzelner Vorwärtsdurchlauf = gesamter Baum verifiziert „
- Vorteile: Höchster α in der Praxis (0,7–0,9+), kein separates Modell zu bedienen, keine Verteilungsinkongruenz
- Nachteile: Erfordert das Anbringen eines Kopfes pro Zielmodell und dessen Training; Der Kopf muss je nach Modellfamilie fein abgestimmt werden
- Am besten für: Produktionsinferenzdienste, bei denen die Akzeptanzrate den Engpass darstellt
3. Medusa (Multi-Head-Dekodierung)
Medusa verfolgt einen strukturell anderen Ansatz: Anstelle eines separaten Entwurfsmechanismus fügt es zusätzliche Vorhersageköpfe direkt über einem eingefrorenen LLM hinzu. Jeder Kopf sagt eine andere zukünftige Token-Position voraus:
„ : Medusa Multi-Head-Setup ┌──────────────────────────┐ │ Basis-LLM (eingefroren) │ └──────────┬───────────────┘ │ verborgener Zustand an Position t ┌──────▼──────┐ │ LM Head 0 │ → sagt Token t+1 voraus │ LM Head 1 │ → sagt Token t+2 voraus │ LM Head 2 │ → sagt Token t+3 voraus │ LM Head 3 │ → sagt Token t+4 voraus └──────┬───────┘ │ Draft-Token [t+1, t+2, t+3, t+4] │ ┌──────▼────────────-┐ │ Ziel-LM überprüft │ │ alles in einem Durchgang │ └─────────────────────┘ „
- Vorteile: Das Originalmodell bleibt vollständig eingefroren, es entsteht kein Inferenzzeitaufwand für den Zeichenmechanismus, Medusa-Köpfe sind einfach zu trainieren
- Nachteile: Die Akzeptanzrate bleibt bei langfristigen Aufgaben tendenziell hinter EAGLE zurückks; Medusa-Köpfe sind bei komplexen Denkketten leistungsschwach
- Am besten für: Teams, die ihr Zielmodell verfeinern können, möchten keinen Inferenzaufwand bei der Entwurfserstellung haben
Hinweis: Medusa ist älter als EAGLE, bleibt aber eine praktische Wahl – insbesondere für die Open-Source-Engpass-Architektur Medusa-2 und die Hydra-Erweiterung für sequentielle Kopfabhängigkeit.
Die Akzeptanzraten-Mathematik: Wann erreicht sie die Gewinnschwelle?
Die spekulative Dekodierung ist nicht kostenlos – jede spekulative Runde verursacht Rechenkosten, die durch vermiedene sequentielle Vorwärtsdurchläufe ausgeglichen werden müssen. Der Breakeven beträgt:
„ Nettobeschleunigung > 1,0, wenn: γ × α > 1 „
Dabei ist γ die Anzahl der spekulativen Token und α die Akzeptanzrate.
Empirische Benchmarks aus realen Bereitstellungen
Verwendung von Llama-3.1-8B-Instruct als Zielmodell mit einer Basis-E2E-Latenz von 4.065 ms (aus dem Patched-vLLM-Test von BentoML):
Die praktische Erkenntnis: Ein gut konzipierter Entwurfsmechanismus, der α ≥ 0,6 mit γ ≥ 5 erreicht, ist die Mindestschwelle für eine sinnvolle Beschleunigung. Bei α ≥ 0,8 sind dramatische 3×+ Beschleunigungen erreichbar. Das ist genau der Grund, warum EAGLEs Feature-Level-Drafting so effektiv konvergiert – es vermeidet die Verteilungsinkongruenz, die dafür sorgt, dass der α des Entwurfsmodells bei etwa 0,5–0,65 liegt.
Produktionsbereitstellung: EAGLE-3, vLLM, Cloud
vLLM: Produktionsstandard
vLLM v0.8.4+ wird mit 7 integrierten Spekulationsmethoden ausgeliefert:
„
vllm dienen meta-llama/Llama-3-8B-Instruct
--speculative-config '{
„Methode“: „eagle3“,
„num_speculative_tokens“: 7
}'
„
Das integrierte Flag „--speculative-config“ verwaltet intern die gesamte KV-Cache-Buchhaltung, Baumüberwachung und Ablehnungsstichprobe. Die Erweiterung auf andere Frameworks (HuggingFace TGI, SGLang) folgt dem gleichen Muster – ein einziger Konfigurationswechsel bringt eine 2–3-fache Beschleunigung.
NVIDIA Arctic Inference
NVIDIAs Arctic Inference treibt EAGLE weiter voran und liefert den höchsten gemessenen spekulativen Decodierungsdurchsatz auf NVIDIA-GPUs, der speziell für TensorRT-LLM und den Verzögerungsmechanismus von vLLM optimiert wurde. Benchmarks für Llama-3.1-70B zeigen, dass Arctic Inference einen 3,6-fachen Durchsatzgewinn gegenüber standardmäßiger autoregressiver Dekodierung (vLLM v0.8.5+-Funktion) erreicht.
AWS Trainium
AWS veröffentlichte Ergebnisse der spekulativen Dekodierung auf seinen benutzerdefinierten Trainium-Beschleunigern mit vLLM. Wichtigstes Ergebnis: Bei dekodierungsintensiven Arbeitslasten (typisch für die Generierung im Chatbot-Stil mit moderaten Kontextfenstern) reduzierte die spekulative Dekodierung die Gesamtlatenz pro Anfrage in der getesteten Modellfamilie um den Faktor 1,4–1,8, während die Genauigkeit des Zielmodells bei etwa 100 % blieb.
Entwurf eines Modelltrainings
Für die spekulative Decodierung im Entwurfsmodell-Stil sollte das Entwurfsmodell idealerweise dieselbe Architektur und denselben Tokenizer wie das Ziel haben. Das BentoML-Team stellte fest, dass das Training eines benutzerdefinierten Entwurfsmodells, das speziell auf die Inferenz-Workload-Verteilung abgestimmt ist, zu deutlich höheren Akzeptanzraten im Vergleich zu generischen, sofort einsatzbereiten Entwurfsmodellen führte – bis zu einer 3-fachen Beschleunigung im Vergleich zu sequentiellen Basislinien, im Vergleich zu nur 1,8–2,0-facher Geschwindigkeit bei generischen Zeichnern.
Vergleich: Spekulative Dekodierung im Vergleich zu anderen Inferenzbeschleunigungstechniken
„ : Vergleich der Beschleunigungstechnik ┌──────────────────────────────── ──┬──────────────┬──────────────┐ │ Technik │ Beschleunigung │ Kosten │ ├──────────────────────────────── ──┼──────────────┼──────────────┤ │ INT4/INT8-Quantisierung │ 1,2–1,5× │ ✓ Kostenlos │ │ GPTQ / AWQ (4-Bit) │ 1,5–2,0× │ ✓ Kostenlos │ │ KV-Cache-Quantisierung (KVCache) │ 1,1–1,3× │ ✓ Kostenlos │ │ Kontinuierliches Batching (vLLM) │ 1,5–5,0× │ ✓ Kostenlos │ │ Spekulative Dekodierung (EAGLE) │ 1,5–6,5× │ 1–2 % Parameter │ │ Spekulative Dekodierung (EAGLE-3) │ 2,0–6,5× │ 1–2 % Parameter │ │ BitNet b1.58 (1,58-Bit) │ 2–5× │ ⚠ Neu trainieren │ │ Destillation (TinyLlama usw.) │ 1,0–1,3× │ Hohe Kosten │ └──────────────────────────────── ──┴──────────────┴──────────────┘ „
Hinweis: BitNet b1.58 erreicht einen ähnlichen Rohdurchsatz durch einen völlig anderen Mechanismus – durch einen Rückgang von FP16-Gewichten auf ternäre {-1, 0, +1}. Es deckt die Effizienz-Dimension vollständig ab, während die spekulative Dekodierung die Geschwindigkeit-pro-Token-Dimension abdeckt. Sie sind keine Alternativen; sie ergänzen sich.
Erste Schritte: 3 Möglichkeiten, spekulative Dekodierung noch heute zu ermöglichen
Option 1: vLLM (EAGLE, Zero Config Beyond Flag)
„Bash
Standard-vLLM wählt automatisch EAGLE-3 aus, sofern für das Modell verfügbar
vllm dienen meta-llama/Llama-3.1-8B-Instruct
--speculative-config '{"method": "eagle3", "num_speculative_tokens": 5}'
„
Benchmark mit dem eingebauten Skript:
„Bash
Python3-Beispiele/Features/speculative_decoding/spec_decode_offline.py
--model meta-llama/Llama-3.1-8B-Instruct
„
Option 2: TensorRT-LLM (EAGLE + Arctic Inference)
„Python aus tensorrt_llm importieren LLM, SamplingParams
llm = LLM( model="meta-llama/Llama-3.1-8B-Instruct", speculative_config={ „model“: „sg2018/EAGLE-llama3.1-8B“, „Methode“: „Adler“, „num_speculative_tokens“: 5, } ) „
Option 3: HuggingFace-Textgenerierungsinferenz (Medusa über Offload)
TGI unterstützt die spekulative Dekodierung standardmäßig über den Parameter „draft_model“:
„Bash
text-generation-server --model-id meta-llama/Llama-3-8B-Instruct
--speculate draft-model:meta-llama/Llama-3-8B-Instruct
--specule-max 5
„
Fazit und nächste Schritte
Die spekulative Dekodierung ist eine dieser seltenen Techniken, bei denen die Theorie elegant ist und der technische Nutzen real und unmittelbar ist. Zu diesem Zeitpunkt im Jahr 2025 hat es:
- ✅ Theoretische Garantie: Die Ausgabe ist mathematisch identisch mit der autoregressiven Vanilla-Generierung
- ✅ Mehrere Produktionsimplementierungen: vLLM, TensorRT-LLM, TGI und Cloud-native Stacks
- ✅ 3,0–6,5-fache reale Beschleunigung in Benchmark-Produktionsbereitstellungen
- ✅ Zero Quality Cost: akzeptiert nur vom Zielmodell verifizierte Token; Die Ausgabe ist garantiert korrekt
- ✅ Kombinierbarkeit: Stapel mit Quantisierung, KV-Cache-Optimierung und kontinuierlicher Stapelverarbeitung für zusammengesetzte Beschleunigungen
Der praktische Ratschlag für jedes Team, das heute LLMs betreut: Entkoppeln Sie den Entwurf von der Generierung, wählen Sie einen schnellen Weg (EAGLE-3 oder Medusa für erstklassige Modellfamilien, N-Gramm oder Suffix für Fälle ohne Overhead) und vergleichen Sie Ihre eigene α mit Ihrer eigenen Arbeitslast – denn die theoretischen Beschleunigungszahlen sind nur so gut wie Ihre tatsächliche Akzeptanzrate.
Was Sie heute tun können:
- 🚀 Spekulative vLLM-Dekodierung aktivieren: Ein Flag, keine Codeänderungen, 2–3-fache Beschleunigung bei jedem unterstützten Modell in wenigen Minuten
- 📊 Benchmarken Sie sich selbst: „python3 examples/features/speculative_decoding/spec_decode_offline.py“ – messen Sie die α-, TPS- und E2E-Latenz Ihrer Arbeitslast
- 📚 Lesen Sie die Grundlagenpapiere: Speculative Sampling (DeepMind, 2023) · EAGLE (2024) · EAGLE-3 (2025) · Medusa (2024)
- 🔧 Feinabstimmung eines Medusa-Kopfes: Wenn Sie Ihr Zielmodell besitzen und einige Trainingsepochen ausführen können, bietet Ihnen Medusa einen Draft-Mechanismus ohne Overhead und ohne separate Bereitstellungskosten
Spekulative Dekodierung ist keine Zukunftstechnologie. Es befindet sich hier in Ihrem Inferenzstapel und ist bereit, nur eine Flagge davon entfernt zu sein, aus 100 Token pro Sekunde 300 zu machen. Die Ingenieure, die es zuerst aktivieren, werden es kostengünstiger einsetzen, kühler laufen und zufriedenere Benutzer bedienen – ohne einen einzigen Punkt der Genauigkeit zu beeinträchtigen.