DeepReinforce vient de lancer quelque chose qui change la donne pour le codage IA open-source. Ornith 1.0 n'est pas qu'une simple version de modèle — c'est un nouveau paradigme pour la façon dont les agents IA apprennent à écrire du code.
L'essentiel : une famille de modèles entièrement open-source (de 9B à 397B paramètres, tous sous licence MIT) qui apprend à écrire ses propres échafaudages d'apprentissage par renforcement. La plus grande variante égale Claude Opus 4.7 sur SWE-Bench Verified. Le plus petit modèle 9B surpasse Gemma 4-31B — un modèle 3 fois plus grand.
Décortiquons ce qui rend cette version différente.
Qu'est-ce qu'Ornith 1.0 ?
Ornith 1.0 est une famille de modèles open-source auto-améliorants spécialement conçus pour les tâches de codage agentique, développée par DeepReinforce. Elle comprend quatre tailles :
- Ornith 1.0 9B Dense — Déployable en périphérie, fonctionne sur du matériel grand public
- Ornith 1.0 31B Dense — Performance équilibrée pour le déploiement sur poste de travail
- Ornith 1.0 35B MoE — Mélange d'experts pour une inférence efficace
- Ornith 1.0 397B MoE — Échelle frontalière, égalant les leaders propriétaires
Construits sur les points de contrôle pré-entraînés Gemma 4 et Qwen 3.5, ces modèles atteignent des résultats de pointe parmi les modèles open-source de taille comparable sur les principaux benchmarks de codage.
L'innovation clé : l'auto-échafaudage
C'est là que ça devient intéressant. Chaque système de codage agentique — que ce soit Claude Code, Cursor ou un agent open-source — repose sur un échafaudage (scaffold) : la logique d'orchestration qui structure la façon dont le modèle interagit avec les outils, gère le contexte, réessaie en cas d'échec et livre une solution finale.
Jusqu'à présent, les échafaudages étaient conçus manuellement par des humains. Vous écrivez le cadre, vous définissez le protocole d'utilisation des outils, vous structurez la récupération d'erreurs. Le modèle se contente de remplir le code.
Ornith 1.0 inverse cela. Son cadre d'entraînement optimise conjointement l'échafaudage ET la solution. Chaque étape RL fonctionne en deux phases :
- Proposer un échafaudage amélioré — conditionné par la tâche et l'échafaudage précédemment utilisé
- Générer un déploiement de solution — conditionné par cet échafaudage et la description de la tâche
La récompense du déploiement se propage aux deux phases. Le modèle n'apprend pas seulement à écrire de meilleures réponses — il apprend à créer l'orchestration qui suscite ces réponses.
Boucle RL en deux étapes d'Ornith : la proposition d'échafaudage et la génération de solution sont optimisées conjointement, créant une boucle de rétroaction où le modèle améliore continuellement sa propre stratégie d'orchestration.
L'analyse approfondie de Sam Witteveen sur Ornith 1.0 le dit bien — ce n'est pas une amélioration progressive. C'est un changement structurel qui passe de « entraîner le solveur » à « entraîner l'échafaudage + le solveur ensemble. »
Performance des benchmarks : frapper au-dessus de son poids
Les chiffres parlent d'eux-mêmes. Voyons comment Ornith se compare à la concurrence.
Échelle frontalière (397B MoE)
Ornith 1.0 397B bat Claude Opus 4.7 sur Terminal-Bench 2.1 et SWE-Bench Verified, et mène devant DeepSeek-V4-Pro et MiniMax M3 sur presque toutes les métriques.
Ornith 1.0 397B vs. les modèles frontaliers leaders — notez la leadership général sur les benchmarks de codage agentique.
Échelle moyenne (35B MoE)
La variante 35B ne bat pas seulement des modèles de taille similaire — elle dépasse le modèle 397B de Qwen 3.5 sur Terminal-Bench 2.1 (64.2 contre 53.5). C'est un désavantage de paramètres 10x surmonté par un entraînement plus intelligent.
Échelle périphérique (9B Dense)
Un modèle 9B battant un modèle 31B sur SWE-Bench Verified ? C'est la puissance de l'entraînement par auto-échafaudage. Pour les équipes qui ont besoin d'agents de codage locaux, privés et hors ligne, c'est un moment charnière.
Comment ça fonctionne : le cadre d'entraînement auto-améliorant
L'architecture technique mérite d'être comprise car elle indique la direction de tout le domaine.
La boucle de rétroaction
Le RL traditionnel pour le codage utilise un cadre fixe. Vous définissez comment le modèle interagit avec le terminal, comment il lit les fichiers, comment il exécute les tests — et le modèle optimise son code dans ces contraintes. Le cadre ne change jamais.
Ornith traite le cadre comme un objet apprenable. Au fil des itérations d'entraînement :
- Le modèle propose un échafaudage pour une catégorie de tâche donnée
- Il génère une solution en utilisant cet échafaudage
- La récompense de la solution se propage pour mettre à jour à la fois la politique de solution ET la politique d'échafaudage
- De meilleurs échafaudages mènent à de meilleures solutions, qui raffinent à leur tour les échafaudages
Cela crée un volant d'inertie de capacité autonome — qui ne nécessite pas d'ingénieurs humains pour reconcevoir manuellement la boucle d'agent chaque fois que le modèle s'améliore.
Défense contre le piratage des récompenses
Donner au modèle le contrôle de son propre échafaudage introduit un risque évident : le piratage des récompenses. Qu'est-ce qui l'empêche d'apprendre à tricher sur les benchmarks plutôt qu'à résoudre réellement des problèmes de codage ?
DeepReinforce met en œuvre une défense à trois couches :
Couche 1 : Limite de confiance fixe. L'environnement, la surface d'outils et l'isolation des tests sont immuables et hors de portée du modèle. Le modèle ne peut faire évoluer que son échafaudage de politique interne — mémoire, gestion des erreurs, logique d'orchestration.
Couche 2 : Surveillance déterministe. Un surveillant applique la limite, signalant les tentatives de lecture de chemins retenus, de modification de scripts de vérification ou d'invocation d'actions en dehors de la surface d'outils autorisée. Aucune récompense pour les violations.
Couche 3 : Juge LLM gelé. Parce que la triche au niveau des intentions peut se produire dans les surfaces d'outils autorisées, un LLM gelé agit comme un veto au-dessus du vérificateur. Si le juge détecte un comportement de triche même dans le cadre d'une utilisation valide d'outil, la trajectoire est pénalisée.
Cette approche à trois couches est une architecture de référence pour quiconque construit des systèmes d'agents auto-améliorants.
RL asynchrone à grande échelle
L'entraînement a été fait avec une stratégie de RL en pipeline pour gérer le problème hors-politique créé par les longs déploiements agentiques. Un poids d'obsolescence réduit le poids des tokens plus anciens et les supprime entièrement une fois qu'un seuil est dépassé. Cela permet à l'entraînement de passer à l'échelle pour les trajectoires à long horizon que le codage agentique exige.
Pourquoi c'est important pour l'IA en entreprise
Ornith 1.0 n'est pas qu'une étape de recherche — il a des implications pratiques immédiates.
1. Les poids ouverts changent le calcul des risques
Tous les points de contrôle Ornith 1.0 portent la licence MIT. Les versions GGUF fonctionnent sur Ollama et Unsloth sans aucune barrière. Pour les industries réglementées (finance, santé, défense), cela signifie :
- Le code ne quitte jamais votre infrastructure
- Vous pouvez auditer et modifier le comportement de l'agent
- Aucune dépendance aux prix ou à la disponibilité de l'API
- Un réglage fin personnalisé pour les bases de code propriétaires est possible
2. Le workflow, pas seulement le modèle, détermine les résultats
Ornith 1.0 prouve que la conception d'échafaudage est désormais un différenciateur concurrentiel. Deux équipes utilisant le même modèle de base peuvent obtenir des résultats radicalement différents selon leur logique d'orchestration. Le modèle qui peut faire évoluer sa propre orchestration prendra de l'avance.
3. La capacité descend en aval
La performance du modèle 9B est sans doute le signal le plus important ici. Cela signifie que la capacité de codage agentique — autrefois le domaine des déploiements dans des centres de données massifs — devient accessible sur les ordinateurs portables et les appareils périphériques. L'assistance au codage privée, hors ligne et en temps réel est désormais réalisable.
4. L'écart avec l'open-source se réduit
L'écart entre le meilleur du propriétaire et l'open-source sur les benchmarks de codage agentique est effectivement zéro. Pour de nombreux cas d'usage, Ornith 1.0 est déjà en tête.
En résumé
Ornith 1.0 est la version de codage agentique open-source la plus importante de 2026 jusqu'à présent. Elle valide une thèse que beaucoup dans la communauté IA soupçonnaient mais que personne n'avait prouvée à grande échelle : optimiser conjointement l'échafaudage et le solveur produit de meilleurs résultats que d'optimiser l'un ou l'autre isolément.
Pour les CTO et les responsables techniques qui évaluent leur stratégie IA, les implications sont claires :
- Vous pouvez maintenant exécuter du codage agentique de qualité production entièrement sur votre propre infrastructure avec des poids ouverts
- L'avantage concurrentiel passe de l'accès aux modèles à la conception d'orchestration et d'outils personnalisés
- Les agents auto-améliorants qui développent leurs propres workflows ne sont plus théoriques — ils sont livrés maintenant
Chez aratech, nous suivons ce domaine de près. Si vous évaluez comment les modèles auto-échafaudants s'intègrent dans votre architecture IA ou souhaitez comparer Ornith 1.0 avec votre base de code privée, contactez-nous.
Regardez l'analyse complète de Sam Witteveen sur Ornith 1.0 sur YouTube pour une démonstration pratique des modèles et de leurs capacités.