DeepReinforce acaba de lanzar algo que cambia las reglas del juego para la codificación con IA de código abierto. Ornith 1.0 no es solo otro lanzamiento de modelo — es un nuevo paradigma de cómo los agentes de IA aprenden a escribir código.
Lo esencial: una familia de modelos completamente de código abierto (de 9B a 397B parámetros, todos con licencia MIT) que se enseña a sí misma a escribir sus propios andamios de aprendizaje por refuerzo. La variante más grande iguala a Claude Opus 4.7 en SWE-Bench Verified. El modelo más pequeño de 9B supera a Gemma 4-31B — un modelo 3 veces más grande.
Analicemos qué hace diferente a este lanzamiento.
¿Qué es Ornith 1.0?
Ornith 1.0 es una familia de modelos de código abierto auto-mejorantes construidos específicamente para tareas de codificación agéntica, desarrollada por DeepReinforce. Abarca cuatro tamaños:
- Ornith 1.0 9B Dense — Desplegable en el borde, funciona en hardware de consumo
- Ornith 1.0 31B Dense — Rendimiento equilibrado para despliegue en estaciones de trabajo
- Ornith 1.0 35B MoE — Mezcla de expertos para inferencia eficiente
- Ornith 1.0 397B MoE — Escala fronteriza, igualando a los líderes de código cerrado
Construidos sobre los puntos de control preentrenados de Gemma 4 y Qwen 3.5, estos modelos logran resultados de vanguardia entre los modelos de código abierto de tamaño comparable en los principales benchmarks de codificación.
La innovación principal: el auto-andamiaje
Aquí es donde se pone interesante. Cada sistema de codificación agéntica — ya sea Claude Code, Cursor o un agente de código abierto — depende de un andamio (scaffold): la lógica de orquestación que estructura cómo el modelo interactúa con las herramientas, gestiona el contexto, reintenta en caso de fallo y entrega una solución final.
Hasta ahora, los andamios eran diseñados manualmente por humanos. Tú escribes el armazón, defines el protocolo de uso de herramientas, estructuras la recuperación de errores. El modelo solo completa el código.
Ornith 1.0 invierte esto. Su marco de entrenamiento optimiza conjuntamente el andamio Y la solución. Cada paso de RL funciona en dos etapas:
- Proponer un andamio refinado — condicionado por la tarea y el andamio utilizado previamente
- Generar un despliegue de solución — condicionado por ese andamio y la descripción de la tarea
La recompensa del despliegue se propaga a ambas etapas. El modelo no solo aprende a escribir mejores respuestas — aprende a crear la orquestación que suscita esas respuestas.
Bucle RL de dos etapas de Ornith: la propuesta de andamio y la generación de solución se optimizan conjuntamente, creando un bucle de retroalimentación donde el modelo mejora continuamente su propia estrategia de orquestación.
La inmersión profunda de Sam Witteveen en Ornith 1.0 lo dice bien — esto no es una mejora incremental. Es un cambio estructural de "entrenar al solucionador" a "entrenar al andamio + solucionador juntos."
Rendimiento en benchmarks: golpeando por encima del peso
Los números hablan por sí mismos. Veamos cómo se compara Ornith con la competencia.
Escala fronteriza (397B MoE)
Ornith 1.0 397B supera a Claude Opus 4.7 tanto en Terminal-Bench 2.1 como en SWE-Bench Verified, y lidera frente a DeepSeek-V4-Pro y MiniMax M3 en casi todas las métricas.
Ornith 1.0 397B vs. modelos fronterizos líderes — note el liderazgo general en benchmarks de codificación agéntica.
Escala media (35B MoE)
La variante 35B no solo supera a modelos de tamaño similar — supera al modelo 397B de Qwen 3.5 en Terminal-Bench 2.1 (64.2 vs 53.5). Es una desventaja de parámetros de 10x superada por un entrenamiento más inteligente.
Escala de borde (9B Dense)
¿Un modelo de 9B superando a un modelo de 31B en SWE-Bench Verified? Ese es el poder del entrenamiento de auto-andamiaje. Para equipos que necesitan agentes de codificación locales, privados y sin conexión, este es un momento crucial.
Cómo funciona: el marco de entrenamiento auto-mejorante
Vale la pena entender la arquitectura técnica porque indica hacia dónde se dirige todo el campo.
El bucle de retroalimentación
El RL tradicional para codificación utiliza un armazón fijo. Tú defines cómo el modelo interactúa con la terminal, cómo lee archivos, cómo ejecuta pruebas — y el modelo optimiza su salida de código dentro de esas restricciones. El armazón nunca cambia.
Ornith trata el armazón como un objeto aprendible. A lo largo de las iteraciones de entrenamiento:
- El modelo propone un andamio para una categoría de tarea dada
- Genera una solución usando ese andamio
- La recompensa de la solución se propaga para actualizar tanto la política de solución COMO la política de andamio
- Mejores andamios conducen a mejores soluciones, que a su vez refinan los andamios
Esto crea un volante de capacidad autónoma — uno que no requiere ingenieros humanos para rediseñar manualmente el bucle del agente cada vez que el modelo mejora.
Defensa contra el hackeo de recompensas
Dar al modelo control sobre su propio andamio introduce un riesgo obvio: hackeo de recompensas. ¿Qué lo detiene de aprender a engañar los benchmarks en lugar de resolver realmente problemas de codificación?
DeepReinforce implementa una defensa de tres capas:
Capa 1: Límite de confianza fijo. El entorno, la superficie de herramientas y el aislamiento de pruebas son inmutables y están fuera del alcance del modelo. El modelo solo puede evolucionar su andamio de política interna — memoria, manejo de errores, lógica de orquestación.
Capa 2: Monitoreo determinista. Un monitor aplica el límite, señalando intentos de leer rutas retenidas, modificar scripts de verificación o invocar acciones fuera de la superficie de herramientas autorizada. Sin recompensa por violaciones.
Capa 3: Juez LLM congelado. Debido a que el engaño a nivel de intención puede ocurrir dentro de las superficies de herramientas permitidas, un LLM congelado actúa como un veto sobre el verificador. Si el juez detecta comportamiento engañoso incluso dentro del uso válido de herramientas, la trayectoria es penalizada.
Este enfoque de tres capas es una arquitectura de referencia para cualquiera que construya sistemas de agentes auto-mejorantes.
RL asíncrono a escala
El entrenamiento se realizó con una estrategia de RL en pipeline para manejar el problema fuera de política creado por los largos despliegues agénticos. Un peso de obsolesencia reduce el peso de los tokens más antiguos y los elimina por completo una vez que se supera un umbral. Esto permite que el entrenamiento escale a las trayectorias de horizonte largo que la codificación agéntica requiere.
Por qué esto es importante para la IA empresarial
Ornith 1.0 no es solo un hito de investigación — tiene implicaciones prácticas inmediatas.
1. Los pesos abiertos cambian el cálculo de riesgos
Todos los puntos de control de Ornith 1.0 tienen la licencia MIT. Las versiones GGUF funcionan en Ollama y Unsloth sin ninguna barrera de acceso. Para industrias reguladas (finanzas, salud, defensa), esto significa:
- El código nunca tiene que salir de tu infraestructura
- Puedes auditar y modificar el comportamiento del agente
- Sin dependencia de los precios o disponibilidad de API
- Es posible el ajuste fino personalizado para bases de código propietarias
2. El flujo de trabajo, no solo el modelo, determina los resultados
Ornith 1.0 demuestra que el diseño de andamios es ahora un diferenciador competitivo. Dos equipos que usan el mismo modelo base pueden obtener resultados radicalmente diferentes dependiendo de su lógica de orquestación. El modelo que puede evolucionar su propia orquestación se adelantará.
3. La capacidad fluye hacia aguas abajo
El rendimiento del modelo 9B es quizás la señal más importante aquí. Significa que la capacidad de codificación agéntica — una vez dominio de despliegues masivos en centros de datos — se está volviendo accesible en portátiles y dispositivos de borde. La asistencia de codificación privada, sin conexión y en tiempo real ahora es factible.
4. La brecha del código abierto se está cerrando
La brecha entre los mejores modelos de código cerrado y abierto en benchmarks de codificación agéntica es efectivamente cero. Para muchos casos de uso, Ornith 1.0 ya lidera.
Conclusión
Ornith 1.0 es el lanzamiento de codificación agéntica de código abierto más importante de 2026 hasta ahora. Valida una tesis que muchos en la comunidad de IA sospechaban pero que nadie había probado a escala: optimizar conjuntamente el andamio y el solucionador produce mejores resultados que optimizar cualquiera de ellos de forma aislada.
Para CTOs y líderes de ingeniería que evalúan su estrategia de IA, las implicaciones son claras:
- Ahora puedes ejecutar codificación agéntica de calidad de producción completamente en tu propia infraestructura con pesos abiertos
- La ventaja competitiva se desplaza del acceso a modelos al diseño de orquestación y herramientas personalizadas
- Los agentes auto-mejorantes que evolucionan sus propios flujos de trabajo ya no son teóricos — se están enviando ahora
En aratech, seguimos este espacio de cerca. Si estás evaluando cómo los modelos de auto-andamiaje encajan en tu arquitectura de IA o quieres comparar Ornith 1.0 con tu base de código privada, ponte en contacto.
Mira el análisis completo de Sam Witteveen sobre Ornith 1.0 en YouTube para un recorrido práctico de los modelos y sus capacidades.