Ornith 1.0 : Modèle de codage IA open-source auto-échafaudant

Ornith 1.0 — Modèle de codage IA auto-échafaudant de DeepReinforce. Miniature vidéo YouTube avec Sam Witteveen.

DeepReinforce vient de lancer quelque chose qui change la donne pour le codage IA open-source. Ornith 1.0 n'est pas qu'une simple version de modèle — c'est un nouveau paradigme pour la façon dont les agents IA apprennent à écrire du code.

L'essentiel : une famille de modèles entièrement open-source (de 9B à 397B paramètres, tous sous licence MIT) qui apprend à écrire ses propres échafaudages d'apprentissage par renforcement. La plus grande variante égale Claude Opus 4.7 sur SWE-Bench Verified. Le plus petit modèle 9B surpasse Gemma 4-31B — un modèle 3 fois plus grand.

Décortiquons ce qui rend cette version différente.

Qu'est-ce qu'Ornith 1.0 ?

Ornith 1.0 est une famille de modèles open-source auto-améliorants spécialement conçus pour les tâches de codage agentique, développée par DeepReinforce. Elle comprend quatre tailles :

Ornith 1.0 9B Dense — Déployable en périphérie, fonctionne sur du matériel grand public
Ornith 1.0 31B Dense — Performance équilibrée pour le déploiement sur poste de travail
Ornith 1.0 35B MoE — Mélange d'experts pour une inférence efficace
Ornith 1.0 397B MoE — Échelle frontalière, égalant les leaders propriétaires

Construits sur les points de contrôle pré-entraînés Gemma 4 et Qwen 3.5, ces modèles atteignent des résultats de pointe parmi les modèles open-source de taille comparable sur les principaux benchmarks de codage.

L'innovation clé : l'auto-échafaudage

C'est là que ça devient intéressant. Chaque système de codage agentique — que ce soit Claude Code, Cursor ou un agent open-source — repose sur un échafaudage (scaffold) : la logique d'orchestration qui structure la façon dont le modèle interagit avec les outils, gère le contexte, réessaie en cas d'échec et livre une solution finale.

Jusqu'à présent, les échafaudages étaient conçus manuellement par des humains. Vous écrivez le cadre, vous définissez le protocole d'utilisation des outils, vous structurez la récupération d'erreurs. Le modèle se contente de remplir le code.

Ornith 1.0 inverse cela. Son cadre d'entraînement optimise conjointement l'échafaudage ET la solution. Chaque étape RL fonctionne en deux phases :

Proposer un échafaudage amélioré — conditionné par la tâche et l'échafaudage précédemment utilisé
Générer un déploiement de solution — conditionné par cet échafaudage et la description de la tâche

La récompense du déploiement se propage aux deux phases. Le modèle n'apprend pas seulement à écrire de meilleures réponses — il apprend à créer l'orchestration qui suscite ces réponses.

Self-scaffolding training framework

Boucle RL en deux étapes d'Ornith : la proposition d'échafaudage et la génération de solution sont optimisées conjointement, créant une boucle de rétroaction où le modèle améliore continuellement sa propre stratégie d'orchestration.

L'analyse approfondie de Sam Witteveen sur Ornith 1.0 le dit bien — ce n'est pas une amélioration progressive. C'est un changement structurel qui passe de « entraîner le solveur » à « entraîner l'échafaudage + le solveur ensemble. »

Performance des benchmarks : frapper au-dessus de son poids

Les chiffres parlent d'eux-mêmes. Voyons comment Ornith se compare à la concurrence.

Échelle frontalière (397B MoE)

Benchmark	Ornith 1.0 397B	Claude Opus 4.7	DeepSeek-V4-Pro	MiniMax M3
Terminal-Bench 2.1 (Terminus-2)	77.5	70.3	67.9	66.0
SWE-Bench Verified	82.4	80.8	80.6	80.5
SWE-Bench Pro	62.2	64.3	55.4	59.0
SWE-Bench Multilingual	78.9	—	76.2	—
NL2Repo	48.2	—	—	42.1

Ornith 1.0 397B bat Claude Opus 4.7 sur Terminal-Bench 2.1 et SWE-Bench Verified, et mène devant DeepSeek-V4-Pro et MiniMax M3 sur presque toutes les métriques.

397B Evaluation Results

Ornith 1.0 397B vs. les modèles frontaliers leaders — notez la leadership général sur les benchmarks de codage agentique.

Échelle moyenne (35B MoE)

Benchmark	Ornith 1.0 35B	Qwen 3.5-35B	Qwen 3.6-35B	Gemma 4-31B
Terminal-Bench 2.1	64.2	41.4	52.5	42.1
SWE-Bench Verified	75.6	70.0	73.4	52.0
SWE-Bench Pro	50.4	44.6	49.5	35.7
NL2Repo	34.6	20.5	29.4	15.5

La variante 35B ne bat pas seulement des modèles de taille similaire — elle dépasse le modèle 397B de Qwen 3.5 sur Terminal-Bench 2.1 (64.2 contre 53.5). C'est un désavantage de paramètres 10x surmonté par un entraînement plus intelligent.

35B Evaluation Results

Échelle périphérique (9B Dense)

Benchmark	Ornith 1.0 9B	Qwen 3.5-9B	Gemma 4-12B	Gemma 4-31B
Terminal-Bench 2.1	43.1	21.3	21.0	42.1
SWE-Bench Verified	69.4	53.2	44.2	52.0
SWE-Bench Pro	42.9	31.3	27.6	35.7

Un modèle 9B battant un modèle 31B sur SWE-Bench Verified ? C'est la puissance de l'entraînement par auto-échafaudage. Pour les équipes qui ont besoin d'agents de codage locaux, privés et hors ligne, c'est un moment charnière.

9B Evaluation Results

Comment ça fonctionne : le cadre d'entraînement auto-améliorant

L'architecture technique mérite d'être comprise car elle indique la direction de tout le domaine.

La boucle de rétroaction

Le RL traditionnel pour le codage utilise un cadre fixe. Vous définissez comment le modèle interagit avec le terminal, comment il lit les fichiers, comment il exécute les tests — et le modèle optimise son code dans ces contraintes. Le cadre ne change jamais.

Ornith traite le cadre comme un objet apprenable. Au fil des itérations d'entraînement :

Le modèle propose un échafaudage pour une catégorie de tâche donnée
Il génère une solution en utilisant cet échafaudage
La récompense de la solution se propage pour mettre à jour à la fois la politique de solution ET la politique d'échafaudage
De meilleurs échafaudages mènent à de meilleures solutions, qui raffinent à leur tour les échafaudages

Cela crée un volant d'inertie de capacité autonome — qui ne nécessite pas d'ingénieurs humains pour reconcevoir manuellement la boucle d'agent chaque fois que le modèle s'améliore.

Défense contre le piratage des récompenses

Donner au modèle le contrôle de son propre échafaudage introduit un risque évident : le piratage des récompenses. Qu'est-ce qui l'empêche d'apprendre à tricher sur les benchmarks plutôt qu'à résoudre réellement des problèmes de codage ?

DeepReinforce met en œuvre une défense à trois couches :

Couche 1 : Limite de confiance fixe. L'environnement, la surface d'outils et l'isolation des tests sont immuables et hors de portée du modèle. Le modèle ne peut faire évoluer que son échafaudage de politique interne — mémoire, gestion des erreurs, logique d'orchestration.

Couche 2 : Surveillance déterministe. Un surveillant applique la limite, signalant les tentatives de lecture de chemins retenus, de modification de scripts de vérification ou d'invocation d'actions en dehors de la surface d'outils autorisée. Aucune récompense pour les violations.

Couche 3 : Juge LLM gelé. Parce que la triche au niveau des intentions peut se produire dans les surfaces d'outils autorisées, un LLM gelé agit comme un veto au-dessus du vérificateur. Si le juge détecte un comportement de triche même dans le cadre d'une utilisation valide d'outil, la trajectoire est pénalisée.

Cette approche à trois couches est une architecture de référence pour quiconque construit des systèmes d'agents auto-améliorants.

RL asynchrone à grande échelle

L'entraînement a été fait avec une stratégie de RL en pipeline pour gérer le problème hors-politique créé par les longs déploiements agentiques. Un poids d'obsolescence réduit le poids des tokens plus anciens et les supprime entièrement une fois qu'un seuil est dépassé. Cela permet à l'entraînement de passer à l'échelle pour les trajectoires à long horizon que le codage agentique exige.

Pourquoi c'est important pour l'IA en entreprise

Ornith 1.0 n'est pas qu'une étape de recherche — il a des implications pratiques immédiates.

1. Les poids ouverts changent le calcul des risques

Tous les points de contrôle Ornith 1.0 portent la licence MIT. Les versions GGUF fonctionnent sur Ollama et Unsloth sans aucune barrière. Pour les industries réglementées (finance, santé, défense), cela signifie :

Le code ne quitte jamais votre infrastructure
Vous pouvez auditer et modifier le comportement de l'agent
Aucune dépendance aux prix ou à la disponibilité de l'API
Un réglage fin personnalisé pour les bases de code propriétaires est possible

2. Le workflow, pas seulement le modèle, détermine les résultats

Ornith 1.0 prouve que la conception d'échafaudage est désormais un différenciateur concurrentiel. Deux équipes utilisant le même modèle de base peuvent obtenir des résultats radicalement différents selon leur logique d'orchestration. Le modèle qui peut faire évoluer sa propre orchestration prendra de l'avance.

3. La capacité descend en aval

La performance du modèle 9B est sans doute le signal le plus important ici. Cela signifie que la capacité de codage agentique — autrefois le domaine des déploiements dans des centres de données massifs — devient accessible sur les ordinateurs portables et les appareils périphériques. L'assistance au codage privée, hors ligne et en temps réel est désormais réalisable.

4. L'écart avec l'open-source se réduit

Catégorie	Claude Opus 4.7	Ornith 1.0 397B	Écart
SWE-Bench Verified	80.8	82.4	+1.6
Terminal-Bench 2.1	70.3	77.5	+7.2
SWE-Bench Pro	64.3	62.2	-2.1

L'écart entre le meilleur du propriétaire et l'open-source sur les benchmarks de codage agentique est effectivement zéro. Pour de nombreux cas d'usage, Ornith 1.0 est déjà en tête.

En résumé

Ornith 1.0 est la version de codage agentique open-source la plus importante de 2026 jusqu'à présent. Elle valide une thèse que beaucoup dans la communauté IA soupçonnaient mais que personne n'avait prouvée à grande échelle : optimiser conjointement l'échafaudage et le solveur produit de meilleurs résultats que d'optimiser l'un ou l'autre isolément.

Pour les CTO et les responsables techniques qui évaluent leur stratégie IA, les implications sont claires :

Vous pouvez maintenant exécuter du codage agentique de qualité production entièrement sur votre propre infrastructure avec des poids ouverts
L'avantage concurrentiel passe de l'accès aux modèles à la conception d'orchestration et d'outils personnalisés
Les agents auto-améliorants qui développent leurs propres workflows ne sont plus théoriques — ils sont livrés maintenant

Chez aratech, nous suivons ce domaine de près. Si vous évaluez comment les modèles auto-échafaudants s'intègrent dans votre architecture IA ou souhaitez comparer Ornith 1.0 avec votre base de code privée, contactez-nous.

Regardez l'analyse complète de Sam Witteveen sur Ornith 1.0 sur YouTube pour une démonstration pratique des modèles et de leurs capacités.

Ornith 1.0 : Le modèle de codage IA open-source qui écrit ses propres échafaudages RL

Points clés