Ornith 1.0: Selbstgerüstendes Open-Source-KI-Coding-Modell

Ornith 1.0 — Selbstgerüstendes KI-Coding-Modell von DeepReinforce. YouTube-Video-Miniaturansicht mit Sam Witteveen.

DeepReinforce hat gerade etwas veröffentlicht, das die Regeln für Open-Source-KI-Coding neu definiert. Ornith 1.0 ist nicht einfach eine weitere Modellveröffentlichung — es ist ein neues Paradigma dafür, wie KI-Agenten das Schreiben von Code lernen.

Die Kernaussage: eine vollständig quelloffene Modellfamilie (9B bis 397B Parameter, alle MIT-lizenziert), die sich selbst beibringt, ihre eigenen Reinforcement-Learning-Gerüste zu schreiben. Die größte Variante erreicht das Niveau von Claude Opus 4.7 bei SWE-Bench Verified. Das kleinste 9B-Modell übertrifft Gemma 4-31B — ein Modell, das 3x so groß ist.

Lassen Sie uns aufschlüsseln, was diese Veröffentlichung besonders macht.

Was ist Ornith 1.0?

Ornith 1.0 ist eine Familie von selbstverbessernden Open-Source-Modellen, die speziell für agentische Codierungsaufgaben entwickelt wurden, von DeepReinforce. Sie umfasst vier Größen:

Ornith 1.0 9B Dense — Am Edge einsetzbar, läuft auf Consumer-Hardware
Ornith 1.0 31B Dense — Ausgewogene Leistung für Workstation-Einsatz
Ornith 1.0 35B MoE — Mixture-of-Experts für effiziente Inferenz
Ornith 1.0 397B MoE — Auf Spitzenniveau, gleichauf mit proprietären Marktführern

Basierend auf den vortrainierten Checkpoints von Gemma 4 und Qwen 3.5 erzielen diese Modelle hochmoderne Ergebnisse unter Open-Source-Modellen vergleichbarer Größe bei den wichtigsten Coding-Benchmarks.

Die Kerninnovation: Selbstgerüstbau

Hier wird es interessant. Jedes agentische Codierungssystem — ob Claude Code, Cursor oder ein Open-Source-Agent — basiert auf einem Gerüst (Scaffold): der Orchestrierungslogik, die strukturiert, wie das Modell mit Tools interagiert, Kontext verwaltet, bei Fehlern wiederholt und eine endgültige Lösung liefert.

Bisher wurden Gerüste von Menschen handentworfen. Sie schreiben das Grundgerüst, definieren das Tool-Use-Protokoll, strukturieren die Fehlerbehandlung. Das Modell füllt nur den Code aus.

Ornith 1.0 dreht dies um. Sein Trainingsframework optimiert gemeinsam das Gerüst UND die Lösung. Jeder RL-Schritt arbeitet in zwei Phasen:

Ein verbessertes Gerüst vorschlagen — basierend auf der Aufgabe und dem zuvor verwendeten Gerüst
Eine Lösung generieren — basierend auf diesem Gerüst und der Aufgabenbeschreibung

Die Belohnung aus der Lösung propagiert zu beiden Phasen. Das Modell lernt nicht nur, bessere Antworten zu schreiben — es lernt, die Orchestrierung zu verfassen, die diese Antworten hervorbringt.

Self-scaffolding training framework

Orniths zweistufige RL-Schleife: Gerüstvorschlag und Lösungsgenerierung werden gemeinsam optimiert, wodurch eine Rückkopplungsschleife entsteht, in der das Modell kontinuierlich seine eigene Orchestrierungsstrategie verbessert.

Sam Witteveens tiefer Einblick in Ornith 1.0 drückt es gut aus — dies ist keine inkrementelle Verbesserung. Es ist ein struktureller Wandel vom „Trainieren des Lösers" zum „Trainieren des Gerüsts + Lösers gemeinsam."

Benchmark-Leistung: Schlagen über dem Gewicht

Die Zahlen sprechen für sich. Schauen wir uns an, wie Ornith im Vergleich zur Konkurrenz abschneidet.

Spitzenmaßstab (397B MoE)

Benchmark	Ornith 1.0 397B	Claude Opus 4.7	DeepSeek-V4-Pro	MiniMax M3
Terminal-Bench 2.1 (Terminus-2)	77.5	70.3	67.9	66.0
SWE-Bench Verified	82.4	80.8	80.6	80.5
SWE-Bench Pro	62.2	64.3	55.4	59.0
SWE-Bench Multilingual	78.9	—	76.2	—
NL2Repo	48.2	—	—	42.1

Ornith 1.0 397B schlägt Claude Opus 4.7 sowohl bei Terminal-Bench 2.1 als auch bei SWE-Bench Verified und führt bei fast jeder Metrik vor DeepSeek-V4-Pro und MiniMax M3.

397B Evaluation Results

Ornith 1.0 397B vs. führende Spitzenmodelle — beachten Sie die durchgängige Führung bei agentischen Coding-Benchmarks.

Mittlerer Maßstab (35B MoE)

Benchmark	Ornith 1.0 35B	Qwen 3.5-35B	Qwen 3.6-35B	Gemma 4-31B
Terminal-Bench 2.1	64.2	41.4	52.5	42.1
SWE-Bench Verified	75.6	70.0	73.4	52.0
SWE-Bench Pro	50.4	44.6	49.5	35.7
NL2Repo	34.6	20.5	29.4	15.5

Die 35B-Variante schlägt nicht nur ähnlich große Modelle — sie übertrifft Qwen 3.5s 397B-Modell bei Terminal-Bench 2.1 (64.2 vs. 53.5). Das ist ein 10-facher Parameter-Nachteil, der durch intelligenteres Training überwunden wurde.

35B Evaluation Results

Edge-Maßstab (9B Dense)

Benchmark	Ornith 1.0 9B	Qwen 3.5-9B	Gemma 4-12B	Gemma 4-31B
Terminal-Bench 2.1	43.1	21.3	21.0	42.1
SWE-Bench Verified	69.4	53.2	44.2	52.0
SWE-Bench Pro	42.9	31.3	27.6	35.7

Ein 9B-Modell, das ein 31B-Modell bei SWE-Bench Verified schlägt? Das ist die Kraft des Selbstgerüstbau-Trainings. Für Teams, die lokale, private, offline Code-Agenten benötigen, ist dies ein epochaler Moment.

9B Evaluation Results

Wie es funktioniert: Das selbstverbessernde Trainingsframework

Die technische Architektur ist es wert, verstanden zu werden, weil sie darauf hindeutet, wohin sich das gesamte Feld bewegt.

Die Rückkopplungsschleife

Traditionelles RL für Coding verwendet ein festes Grundgerüst. Sie definieren, wie das Modell mit dem Terminal interagiert, wie es Dateien liest, wie es Tests ausführt — und das Modell optimiert seine Code-Ausgabe innerhalb dieser Beschränkungen. Das Grundgerüst ändert sich nie.

Ornith behandelt das Grundgerüst als lernbares Objekt. Über Trainingsiterationen hinweg:

Das Modell schlägt ein Gerüst für eine gegebene Aufgabenkategorie vor
Es generiert eine Lösung unter Verwendung dieses Gerüsts
Die Belohnung aus der Lösung propagiert zurück, um sowohl die Lösungsstrategie ALS AUCH die Gerüststrategie zu aktualisieren
Bessere Gerüste führen zu besseren Lösungen, die wiederum die Gerüste verfeinern

Dies erzeugt ein autonomes Fähigkeitenschwungrad — eines, das keine menschlichen Ingenieure erfordert, um die Agentenschleife jedes Mal manuell neu zu entwerfen, wenn sich das Modell verbessert.

Verteidigung gegen Reward Hacking

Dem Modell die Kontrolle über sein eigenes Gerüst zu geben, birgt ein offensichtliches Risiko: Reward Hacking. Was hindert es daran, zu lernen, die Benchmarks zu betrügen, anstatt tatsächlich Codierungsprobleme zu lösen?

DeepReinforce implementiert eine dreischichtige Verteidigung:

Schicht 1: Feste Vertrauensgrenze. Die Umgebung, die Tool-Oberfläche und die Testisolierung sind unveränderlich und außerhalb der Reichweite des Modells. Das Modell kann nur sein inneres Policy-Gerüst weiterentwickeln — Gedächtnis, Fehlerbehandlung, Orchestrierungslogik.

Schicht 2: Deterministische Überwachung. Ein Monitor setzt die Grenze durch, kennzeichnet Versuche, zurückgehaltene Pfade zu lesen, Verifikationsskripte zu ändern oder Aktionen außerhalb der sanktionierten Tool-Oberfläche aufzurufen. Keine Belohnung für Verstöße.

Schicht 3: Eingefrorener LLM-Richter. Weil Intent-Level-Betrug innerhalb erlaubter Tool-Oberflächen stattfinden kann, fungiert ein eingefrorener LLM als Veto über dem Verifizierer. Wenn der Richter betrügerisches Verhalten selbst innerhalb gültiger Tool-Nutzung erkennt, wird die Trajektorie bestraft.

Dieser dreischichtige Ansatz ist eine Referenzarchitektur für jeden, der selbstverbessernde Agentensysteme baut.

Asynchrones RL in großem Maßstab

Das Training erfolgte mit einer Pipeline-RL-Strategie, um das Off-Policy-Problem zu bewältigen, das durch lange agentische Rollouts entsteht. Ein Veralterungsgewicht gewichtet ältere Tokens herunter und verwirft sie vollständig, sobald ein Schwellenwert überschritten wird. Dies ermöglicht es dem Training, auf die langfristigen Trajektorien zu skalieren, die agentisches Coding erfordert.

Warum dies für Unternehmens-KI wichtig ist

Ornith 1.0 ist nicht nur ein Forschungsmeilenstein — er hat unmittelbare praktische Auswirkungen.

1. Offene Gewichte verändern die Risikoberechnung

Alle Ornith 1.0-Checkpoints tragen die MIT-Lizenz. GGUF-Versionen laufen auf Ollama und Unsloth ohne Zugangsbeschränkungen. Für regulierte Branchen (Finanzen, Gesundheitswesen, Verteidigung) bedeutet dies:

Code muss niemals Ihre Infrastruktur verlassen
Sie können das Agentenverhalten prüfen und modifizieren
Keine Abhängigkeit von API-Preisen oder -Verfügbarkeit
Benutzerdefinierte Feinabstimmung für proprietäre Codebasen ist möglich

2. Der Workflow, nicht nur das Modell, bestimmt die Ergebnisse

Ornith 1.0 beweist, dass Gerüstdesign jetzt ein Wettbewerbsvorteil ist. Zwei Teams, die dasselbe Basismodell verwenden, können je nach ihrer Orchestrierungslogik völlig unterschiedliche Ergebnisse erzielen. Das Modell, das seine eigene Orchestrierung weiterentwickeln kann, wird die Nase vorn haben.

3. Die Fähigkeit fließt flussabwärts

Die Leistung des 9B-Modells ist wohl das wichtigste Signal hier. Es bedeutet, dass agentische Coding-Fähigkeit — einst die Domäne massiver Rechenzentrumsbereitstellungen — auf Laptops und Edge-Geräten zugänglich wird. Private, offline, Echtzeit-Code-Assistenz ist jetzt machbar.

4. Die Open-Source-Lücke schließt sich

Kategorie	Claude Opus 4.7	Ornith 1.0 397B	Lücke
SWE-Bench Verified	80.8	82.4	+1.6
Terminal-Bench 2.1	70.3	77.5	+7.2
SWE-Bench Pro	64.3	62.2	-2.1

Die Lücke zwischen den besten Closed-Source- und Open-Source-Modellen bei agentischen Coding-Benchmarks ist praktisch Null. Für viele Anwendungsfälle liegt Ornith 1.0 bereits vorn.

Fazit

Ornith 1.0 ist die wichtigste Open-Source-Veröffentlichung für agentisches Coding im Jahr 2026. Sie bestätigt eine These, die viele in der KI-Community vermuteten, die aber niemand im großen Maßstab bewiesen hatte: Die gemeinsame Optimierung von Gerüst und Löser führt zu besseren Ergebnissen als die Optimierung eines der beiden isoliert.

Für CTOs und technische Führungskräfte, die ihre KI-Strategie bewerten, sind die Implikationen klar:

Sie können jetzt produktionsreife agentische Codierung vollständig auf Ihrer eigenen Infrastruktur mit offenen Gewichten betreiben
Der Wettbewerbsvorteil verschiebt sich vom Modellzugang zum Orchestrierungsdesign und benutzerdefinierten Tools
Selbstverbessernde Agenten, die ihre eigenen Workflows entwickeln, sind nicht länger theoretisch — sie werden jetzt ausgeliefert

Bei aratech verfolgen wir diesen Bereich genau. Wenn Sie evaluieren, wie selbstgerüstende Modelle in Ihre KI-Architektur passen, oder Ornith 1.0 gegen Ihre private Codebasis benchmarken möchten, nehmen Sie Kontakt auf.

Sehen Sie sich Sam Witteveens vollständige Analyse von Ornith 1.0 auf YouTube für eine praktische Demonstration der Modelle und ihrer Fähigkeiten an.

Ornith 1.0: Das Open-Source-KI-Coding-Modell, das seine eigenen RL-Gerüste schreibt

Wichtigste Punkte