¿Qué hace que M3 sea diferente?
Históricamente, el ecosistema de peso abierto ha intercambiado capacidad por accesibilidad. Podría ejecutar un modelo localmente, pero sacrificaría la longitud del contexto, la competencia en codificación o el soporte multimodal. MiniMax M3 rompe ese compromiso en tres dimensiones.
1. Un millón de tokens, no un millón de dólares
La característica principal es la ventana contextual de 1 millón de tokens de M3, suficiente para ingerir una base de código completa, una novela completa o cientos de páginas de documentos legales y técnicos en una sola pasada. Lo que hace que esto sea realmente impresionante es cómo lo logró MiniMax.
La compañía desarrolló un novedoso mecanismo de atención llamado MiniMax Sparse Attention (MSA) que evita la plaga de complejidad cuadrática de la atención total estándar. En lugar de comparar cada token con todos los demás (la espiral de muerte O(n²) que hace que los contextos largos sean computacionalmente prohibitivos), MSA divide la caché KV en bloques, prefiltra por relevancia y procesa solo los bloques que importan.
El resultado es claro: en una longitud de contexto de un millón de tokens, el costo de cómputo por token de M3 cae a 1/20 de su predecesor. El procesamiento de entrada es 9 veces más rápido. La generación de respuestas es 15 veces más rápida. Y a través de extensos estudios de ablación, MSA presta total atención a la gran mayoría de las capacidades.
2. Codificación que compite con los gigantes propietarios
En SWE-Bench Pro, el punto de referencia de ingeniería de software estándar de la industria, M3 obtiene una puntuación de 59,0%, superando a GPT-5.5 y Gemini 3.1 Pro, y quedando justo detrás del Opus 4.7 de Anthropic. En todo el conjunto de pruebas comparativas más amplias, los resultados son consistentes:
- Terminal-Banco 2.1: 66,0%
- Atlas MCP: 74,2%
- BrowseComp: 83.5 (por delante de Opus 4.7)
- SVG-Bench: supera a Opus 4.7
MiniMax no se detuvo en puntos de referencia estáticos. El equipo creó un marco de simulación de usuario interactivo que expone el modelo a patrones de colaboración del mundo real (refinamiento de requisitos, depuración de múltiples turnos, cambio de contexto entre tareas) durante el entrenamiento. El objetivo no es sólo generar código, sino funcionar como un socio colaborativo confiable en todo el flujo de trabajo de desarrollo.
3. Multimodalidad nativa desde el primer día
A diferencia de los modelos que incorporan la visión como una ocurrencia tardía, el M3 fue entrenado con modalidades mixtas desde el Paso Cero. Los datos entrelazados, donde el texto y las imágenes se entrelazan naturalmente dentro de las secuencias de entrenamiento, resultaron mucho más críticos de lo esperado. Después de reconstruir toda la canalización de datos, MiniMax ahora puede escalar el entrenamiento a aproximadamente 100 billones de tokens.
M3 comprende texto, imágenes y vídeos de forma nativa. Puede operar una computadora de escritorio a través de su interfaz de agente. Este no es un modelo de visión separado agregado mediante un adaptador: es una comprensión multimodal unificada integrada en la arquitectura.
Inteligencia real, autonomía real
MiniMax sometió al M3 a tres agotadoras pruebas en el mundo real que revelan mucho más de lo que las cifras de referencia jamás podrían revelar.
Prueba 1: Reproducir un artículo de investigación. Dado un artículo excepcional de ICLR 2025 sobre la dinámica de ajuste fino de LLM, M3 trabajó de forma autónoma durante casi 12 horas, produjo 18 confirmaciones y 23 figuras experimentales y replicó con éxito los hallazgos principales del artículo, incluido el efecto de compresión en los experimentos de DPO y la efectividad del método de mitigación propuesto.
Prueba 2: Optimizar un kernel CUDA. M3 recibió una descripción de la tarea, un script de referencia y un esqueleto de código no funcional: sin implementación de referencia ni atajos. Durante aproximadamente 24 horas de ejecución continua, completó 147 envíos de pruebas comparativas y 1959 llamadas a herramientas. Impulsó la utilización de GEMM del FP8 en la arquitectura NVIDIA Hopper del 7,6% al 71,3%, una mejora de 9,4 veces. La mayoría de los modelos se dieron por vencidos después de 30 intentos. La mejor solución de M3 llegó en el intento 145.
Prueba 3: Entrenar modelos de forma autónoma. En PostTrainBench, M3 recibió cuatro modelos base que solo habían completado el entrenamiento previo. Manejó de forma autónoma la síntesis, el entrenamiento, la evaluación y la iteración de datos, sin intervención humana, obteniendo resultados competitivos frente a Opus 4.7 y GPT-5.5.## Por qué esto es importante para la IA soberana
Para las empresas y los gobiernos de Oriente Medio, el atractivo del M3 va más allá de la tabla de referencia.
La región está invirtiendo fuertemente en infraestructura soberana de IA: centros de datos locales, estrategias nacionales de IA y marcos regulatorios que requieren que los datos confidenciales permanezcan dentro de las fronteras nacionales. Los modelos propietarios basados en API crean una tensión fundamental: puedes tener capacidad o puedes tener control, pero no ambas cosas.
Los modelos de peso abierto como el M3 resuelven esa tensión. Puede autohospedar exactamente el mismo modelo que compite con sistemas propietarios de vanguardia, procesar sus datos completamente en la infraestructura local y mantener la propiedad total de sus entradas y salidas. Ningún dato sale de su jurisdicción.
La ventana de contexto de un millón de tokens es particularmente importante para los casos de uso de IA soberana. La revisión de documentos legales, el análisis de políticas gubernamentales, la auditoría de códigos a gran escala y las tareas de PNL en árabe que abarcan corpus masivos son factibles en un único modelo que se ejecuta en hardware local, sin fragmentación, sin truncamiento de contexto y sin fuga de datos a API externas.
Precios y disponibilidad
M3 ya está disponible a través de las suscripciones MiniMax API y Token Plan:
- Más: $20/mes (~1,700 millones de tokens)
- Máximo: $50/mes (~5,1 mil millones de tokens)
- Ultra: $120/mes (~9,8 mil millones de tokens)
Todos los niveles comparten un grupo de tokens unificado para texto, imágenes, voz y música. Se puede alternar un modo de pensamiento por solicitud: activado para razonamiento complejo y tareas de agente, desactivado para escenarios sensibles a la latencia.
Fundamentalmente, se esperan ponderaciones abiertas y un informe técnico en Hugging Face y GitHub a los pocos días del lanzamiento, lo que permitirá una implementación totalmente autohospedada.
MiniMax también ha actualizado MiniMax Code, su compañero de codificación agente, que utiliza un bucle adversario Producer + Verifier para dividir tareas grandes en flujos de trabajo simultáneos de varias etapas que pueden ejecutarse de forma autónoma durante días.
El panorama más amplio
M3 llega en un momento en el que la industria de la IA se está fracturando en dos ejes. Por un lado, los modelos fronterizos propietarios se vuelven más capaces pero también más caros y más restringidos. Por otro lado, el ecosistema de peso abierto ha luchado por cerrar la brecha en las dimensiones que más importan para la implementación en el mundo real.
MiniMax M3 no sólo reduce esa brecha, sino que la elimina en varias categorías críticas. Para la codificación, el razonamiento de contexto prolongado y la comprensión multimodal, el mundo abierto ahora tiene un modelo que no requiere compromisos.
Para las organizaciones que construyen infraestructura soberana de IA en Medio Oriente y más allá, eso cambia el cálculo por completo. La capacidad de Frontier AI ya no es algo que se alquila. Es algo que puedes poseer.