DeepReinforce hat gerade etwas veröffentlicht, das die Regeln für Open-Source-KI-Coding neu definiert. Ornith 1.0 ist nicht einfach eine weitere Modellveröffentlichung — es ist ein neues Paradigma dafür, wie KI-Agenten das Schreiben von Code lernen.
Die Kernaussage: eine vollständig quelloffene Modellfamilie (9B bis 397B Parameter, alle MIT-lizenziert), die sich selbst beibringt, ihre eigenen Reinforcement-Learning-Gerüste zu schreiben. Die größte Variante erreicht das Niveau von Claude Opus 4.7 bei SWE-Bench Verified. Das kleinste 9B-Modell übertrifft Gemma 4-31B — ein Modell, das 3x so groß ist.
Lassen Sie uns aufschlüsseln, was diese Veröffentlichung besonders macht.
Was ist Ornith 1.0?
Ornith 1.0 ist eine Familie von selbstverbessernden Open-Source-Modellen, die speziell für agentische Codierungsaufgaben entwickelt wurden, von DeepReinforce. Sie umfasst vier Größen:
- Ornith 1.0 9B Dense — Am Edge einsetzbar, läuft auf Consumer-Hardware
- Ornith 1.0 31B Dense — Ausgewogene Leistung für Workstation-Einsatz
- Ornith 1.0 35B MoE — Mixture-of-Experts für effiziente Inferenz
- Ornith 1.0 397B MoE — Auf Spitzenniveau, gleichauf mit proprietären Marktführern
Basierend auf den vortrainierten Checkpoints von Gemma 4 und Qwen 3.5 erzielen diese Modelle hochmoderne Ergebnisse unter Open-Source-Modellen vergleichbarer Größe bei den wichtigsten Coding-Benchmarks.
Die Kerninnovation: Selbstgerüstbau
Hier wird es interessant. Jedes agentische Codierungssystem — ob Claude Code, Cursor oder ein Open-Source-Agent — basiert auf einem Gerüst (Scaffold): der Orchestrierungslogik, die strukturiert, wie das Modell mit Tools interagiert, Kontext verwaltet, bei Fehlern wiederholt und eine endgültige Lösung liefert.
Bisher wurden Gerüste von Menschen handentworfen. Sie schreiben das Grundgerüst, definieren das Tool-Use-Protokoll, strukturieren die Fehlerbehandlung. Das Modell füllt nur den Code aus.
Ornith 1.0 dreht dies um. Sein Trainingsframework optimiert gemeinsam das Gerüst UND die Lösung. Jeder RL-Schritt arbeitet in zwei Phasen:
- Ein verbessertes Gerüst vorschlagen — basierend auf der Aufgabe und dem zuvor verwendeten Gerüst
- Eine Lösung generieren — basierend auf diesem Gerüst und der Aufgabenbeschreibung
Die Belohnung aus der Lösung propagiert zu beiden Phasen. Das Modell lernt nicht nur, bessere Antworten zu schreiben — es lernt, die Orchestrierung zu verfassen, die diese Antworten hervorbringt.
Orniths zweistufige RL-Schleife: Gerüstvorschlag und Lösungsgenerierung werden gemeinsam optimiert, wodurch eine Rückkopplungsschleife entsteht, in der das Modell kontinuierlich seine eigene Orchestrierungsstrategie verbessert.
Sam Witteveens tiefer Einblick in Ornith 1.0 drückt es gut aus — dies ist keine inkrementelle Verbesserung. Es ist ein struktureller Wandel vom „Trainieren des Lösers" zum „Trainieren des Gerüsts + Lösers gemeinsam."
Benchmark-Leistung: Schlagen über dem Gewicht
Die Zahlen sprechen für sich. Schauen wir uns an, wie Ornith im Vergleich zur Konkurrenz abschneidet.
Spitzenmaßstab (397B MoE)
Ornith 1.0 397B schlägt Claude Opus 4.7 sowohl bei Terminal-Bench 2.1 als auch bei SWE-Bench Verified und führt bei fast jeder Metrik vor DeepSeek-V4-Pro und MiniMax M3.
Ornith 1.0 397B vs. führende Spitzenmodelle — beachten Sie die durchgängige Führung bei agentischen Coding-Benchmarks.
Mittlerer Maßstab (35B MoE)
Die 35B-Variante schlägt nicht nur ähnlich große Modelle — sie übertrifft Qwen 3.5s 397B-Modell bei Terminal-Bench 2.1 (64.2 vs. 53.5). Das ist ein 10-facher Parameter-Nachteil, der durch intelligenteres Training überwunden wurde.
Edge-Maßstab (9B Dense)
Ein 9B-Modell, das ein 31B-Modell bei SWE-Bench Verified schlägt? Das ist die Kraft des Selbstgerüstbau-Trainings. Für Teams, die lokale, private, offline Code-Agenten benötigen, ist dies ein epochaler Moment.
Wie es funktioniert: Das selbstverbessernde Trainingsframework
Die technische Architektur ist es wert, verstanden zu werden, weil sie darauf hindeutet, wohin sich das gesamte Feld bewegt.
Die Rückkopplungsschleife
Traditionelles RL für Coding verwendet ein festes Grundgerüst. Sie definieren, wie das Modell mit dem Terminal interagiert, wie es Dateien liest, wie es Tests ausführt — und das Modell optimiert seine Code-Ausgabe innerhalb dieser Beschränkungen. Das Grundgerüst ändert sich nie.
Ornith behandelt das Grundgerüst als lernbares Objekt. Über Trainingsiterationen hinweg:
- Das Modell schlägt ein Gerüst für eine gegebene Aufgabenkategorie vor
- Es generiert eine Lösung unter Verwendung dieses Gerüsts
- Die Belohnung aus der Lösung propagiert zurück, um sowohl die Lösungsstrategie ALS AUCH die Gerüststrategie zu aktualisieren
- Bessere Gerüste führen zu besseren Lösungen, die wiederum die Gerüste verfeinern
Dies erzeugt ein autonomes Fähigkeitenschwungrad — eines, das keine menschlichen Ingenieure erfordert, um die Agentenschleife jedes Mal manuell neu zu entwerfen, wenn sich das Modell verbessert.
Verteidigung gegen Reward Hacking
Dem Modell die Kontrolle über sein eigenes Gerüst zu geben, birgt ein offensichtliches Risiko: Reward Hacking. Was hindert es daran, zu lernen, die Benchmarks zu betrügen, anstatt tatsächlich Codierungsprobleme zu lösen?
DeepReinforce implementiert eine dreischichtige Verteidigung:
Schicht 1: Feste Vertrauensgrenze. Die Umgebung, die Tool-Oberfläche und die Testisolierung sind unveränderlich und außerhalb der Reichweite des Modells. Das Modell kann nur sein inneres Policy-Gerüst weiterentwickeln — Gedächtnis, Fehlerbehandlung, Orchestrierungslogik.
Schicht 2: Deterministische Überwachung. Ein Monitor setzt die Grenze durch, kennzeichnet Versuche, zurückgehaltene Pfade zu lesen, Verifikationsskripte zu ändern oder Aktionen außerhalb der sanktionierten Tool-Oberfläche aufzurufen. Keine Belohnung für Verstöße.
Schicht 3: Eingefrorener LLM-Richter. Weil Intent-Level-Betrug innerhalb erlaubter Tool-Oberflächen stattfinden kann, fungiert ein eingefrorener LLM als Veto über dem Verifizierer. Wenn der Richter betrügerisches Verhalten selbst innerhalb gültiger Tool-Nutzung erkennt, wird die Trajektorie bestraft.
Dieser dreischichtige Ansatz ist eine Referenzarchitektur für jeden, der selbstverbessernde Agentensysteme baut.
Asynchrones RL in großem Maßstab
Das Training erfolgte mit einer Pipeline-RL-Strategie, um das Off-Policy-Problem zu bewältigen, das durch lange agentische Rollouts entsteht. Ein Veralterungsgewicht gewichtet ältere Tokens herunter und verwirft sie vollständig, sobald ein Schwellenwert überschritten wird. Dies ermöglicht es dem Training, auf die langfristigen Trajektorien zu skalieren, die agentisches Coding erfordert.
Warum dies für Unternehmens-KI wichtig ist
Ornith 1.0 ist nicht nur ein Forschungsmeilenstein — er hat unmittelbare praktische Auswirkungen.
1. Offene Gewichte verändern die Risikoberechnung
Alle Ornith 1.0-Checkpoints tragen die MIT-Lizenz. GGUF-Versionen laufen auf Ollama und Unsloth ohne Zugangsbeschränkungen. Für regulierte Branchen (Finanzen, Gesundheitswesen, Verteidigung) bedeutet dies:
- Code muss niemals Ihre Infrastruktur verlassen
- Sie können das Agentenverhalten prüfen und modifizieren
- Keine Abhängigkeit von API-Preisen oder -Verfügbarkeit
- Benutzerdefinierte Feinabstimmung für proprietäre Codebasen ist möglich
2. Der Workflow, nicht nur das Modell, bestimmt die Ergebnisse
Ornith 1.0 beweist, dass Gerüstdesign jetzt ein Wettbewerbsvorteil ist. Zwei Teams, die dasselbe Basismodell verwenden, können je nach ihrer Orchestrierungslogik völlig unterschiedliche Ergebnisse erzielen. Das Modell, das seine eigene Orchestrierung weiterentwickeln kann, wird die Nase vorn haben.
3. Die Fähigkeit fließt flussabwärts
Die Leistung des 9B-Modells ist wohl das wichtigste Signal hier. Es bedeutet, dass agentische Coding-Fähigkeit — einst die Domäne massiver Rechenzentrumsbereitstellungen — auf Laptops und Edge-Geräten zugänglich wird. Private, offline, Echtzeit-Code-Assistenz ist jetzt machbar.
4. Die Open-Source-Lücke schließt sich
Die Lücke zwischen den besten Closed-Source- und Open-Source-Modellen bei agentischen Coding-Benchmarks ist praktisch Null. Für viele Anwendungsfälle liegt Ornith 1.0 bereits vorn.
Fazit
Ornith 1.0 ist die wichtigste Open-Source-Veröffentlichung für agentisches Coding im Jahr 2026. Sie bestätigt eine These, die viele in der KI-Community vermuteten, die aber niemand im großen Maßstab bewiesen hatte: Die gemeinsame Optimierung von Gerüst und Löser führt zu besseren Ergebnissen als die Optimierung eines der beiden isoliert.
Für CTOs und technische Führungskräfte, die ihre KI-Strategie bewerten, sind die Implikationen klar:
- Sie können jetzt produktionsreife agentische Codierung vollständig auf Ihrer eigenen Infrastruktur mit offenen Gewichten betreiben
- Der Wettbewerbsvorteil verschiebt sich vom Modellzugang zum Orchestrierungsdesign und benutzerdefinierten Tools
- Selbstverbessernde Agenten, die ihre eigenen Workflows entwickeln, sind nicht länger theoretisch — sie werden jetzt ausgeliefert
Bei aratech verfolgen wir diesen Bereich genau. Wenn Sie evaluieren, wie selbstgerüstende Modelle in Ihre KI-Architektur passen, oder Ornith 1.0 gegen Ihre private Codebasis benchmarken möchten, nehmen Sie Kontakt auf.
Sehen Sie sich Sam Witteveens vollständige Analyse von Ornith 1.0 auf YouTube für eine praktische Demonstration der Modelle und ihrer Fähigkeiten an.