Qu'est-ce qui rend M3 différent
L’écosystème à poids ouvert a historiquement troqué la capacité contre l’accessibilité. Vous pouviez exécuter un modèle localement, mais vous sacrifiiez la longueur du contexte, les compétences en codage ou la prise en charge multimodale. Le MiniMax M3 rompt ce compromis sur trois dimensions.
1. Un million de jetons, pas un million de dollars
La fonctionnalité principale est la fenêtre contextuelle de 1 million de jetons de M3 — suffisamment pour ingérer une base de code entière, un roman complet ou des centaines de pages de documents juridiques et techniques en un seul passage. Ce qui rend cela vraiment impressionnant, c'est la façon dont MiniMax y est parvenu.
La société a développé un nouveau mécanisme d'attention appelé MiniMax Sparse Attention (MSA) qui évite le fléau de la complexité quadratique de l'attention complète standard. Au lieu de comparer chaque jeton à chaque autre jeton – la spirale mortelle O(n²) qui rend les contextes longs prohibitifs sur le plan informatique – MSA divise le cache KV en blocs, pré-filtre la pertinence et traite uniquement les blocs qui comptent.
Le résultat est frappant : avec une longueur de contexte d'un million de jetons, le coût de calcul par jeton de M3 tombe à 1/20 de son prédécesseur. Le traitement des entrées est 9 fois plus rapide. La génération de réponses est 15 fois plus rapide. Et dans le cadre d’études approfondies sur l’ablation, MSA accorde toute son attention à la grande majorité des capacités.
2. Un codage qui rivalise avec les géants propriétaires
Sur SWE-Bench Pro, la référence en matière d'ingénierie logicielle standard de l'industrie, M3 obtient un score de 59,0 %, dépassant GPT-5.5 et Gemini 3.1 Pro et atterrissant juste derrière l'Opus 4.7 d'Anthropic. Dans l’ensemble de la suite de références plus large, les résultats sont cohérents :
- Terminal-Bench 2.1 : 66,0%
- MCP Atlas : 74,2%
- BrowseComp : 83,5 (devant Opus 4.7)
- SVG-Bench : surpasse Opus 4.7
MiniMax ne s'est pas arrêté aux benchmarks statiques. L'équipe a construit un cadre de simulation utilisateur interactif qui expose le modèle à des modèles de collaboration réels (affinement des exigences, débogage multi-tours, changement de contexte entre les tâches) pendant la formation. L'objectif n'est pas seulement de générer du code, mais de fonctionner comme un partenaire collaboratif fiable tout au long d'un flux de développement complet.
3. Multimodalité native dès le premier jour
Contrairement aux modèles qui se basent sur la vision après coup, M3 a été formé avec des modalités mixtes à partir de Step Zero. Les données entrelacées – où le texte et les images s’entrelacent naturellement au sein des séquences d’entraînement – se sont révélées bien plus critiques que prévu. Après avoir reconstruit l'intégralité du pipeline de données, MiniMax peut désormais étendre la formation à environ 100 000 milliards de jetons.
M3 comprend nativement le texte, les images et les vidéos. Il peut faire fonctionner un ordinateur de bureau via son interface d'agent. Il ne s’agit pas d’un modèle de vision distinct ajouté via un adaptateur, mais d’une compréhension multimodale unifiée intégrée à l’architecture.## Vraie intelligence, vraie autonomie
MiniMax a soumis le M3 à trois tests épuisants en conditions réelles qui révèlent bien plus que les chiffres de référence ne pourraient jamais le faire.
Test 1 : Reproduire un document de recherche. Compte tenu d'un article exceptionnel de l'ICLR 2025 sur la dynamique de réglage fin du LLM, M3 a travaillé de manière autonome pendant près de 12 heures, a produit 18 commits et 23 figures expérimentales et a reproduit avec succès les principales conclusions de l'article, y compris l'effet de compression dans les expériences DPO et l'efficacité de la méthode d'atténuation proposée.
Test 2 : optimiser un noyau CUDA. M3 a reçu une description de tâche, un script de référence et un squelette de code non fonctionnel – aucune implémentation de référence, aucun raccourci. En environ 24 heures d'exécution continue, il a réalisé 147 soumissions de référence et 1 959 appels d'outils. Il a fait passer l'utilisation du FP8 GEMM sur l'architecture NVIDIA Hopper de 7,6 % à 71,3 %, soit une amélioration de 9,4 fois. La plupart des modèles ont abandonné après 30 tentatives. La meilleure solution de M3 est venue lors de la tentative 145.
Test 3 : entraîner des modèles de manière autonome. Sur PostTrainBench, M3 a reçu quatre modèles de base qui n'avaient suivi qu'une pré-formation. Il a géré de manière autonome la synthèse, la formation, l'évaluation et l'itération des données - sans aucune intervention humaine - obtenant des résultats compétitifs par rapport à Opus 4.7 et GPT-5.5.
Pourquoi c'est important pour l'IA souveraine
Pour les entreprises et les gouvernements du Moyen-Orient, l’attrait de M3 va au-delà du tableau de référence.
La région investit massivement dans une infrastructure d'IA souveraine : centres de données locaux, stratégies nationales d'IA et cadres réglementaires qui exigent que les données sensibles restent à l'intérieur des frontières nationales. Les modèles propriétaires basés sur des API créent une tension fondamentale : vous pouvez avoir des capacités ou avoir le contrôle, mais pas les deux.
Les modèles à poids ouvert comme le M3 résolvent cette tension. Vous pouvez auto-héberger exactement le même modèle qui rivalise avec les systèmes propriétaires pionniers, traiter entièrement vos données sur une infrastructure locale et conserver la pleine propriété de vos entrées et sorties. Aucune donnée ne quitte votre juridiction.
La fenêtre contextuelle d’un million de jetons est particulièrement importante pour les cas d’utilisation de l’IA souveraine. L'examen de documents juridiques, l'analyse de politiques gouvernementales, l'audit de code à grande échelle et les tâches de PNL arabe couvrant des corpus massifs — tout devient réalisable sur un modèle unique fonctionnant sur du matériel local, sans découpage, sans troncature de contexte et sans fuite de données vers des API externes.
Prix et disponibilité
M3 est disponible dès maintenant via les abonnements MiniMax API et Token Plan :
- Plus : 20 $/mois (~1,7 milliard de jetons)
- Max : 50 $/mois (~5,1 milliards de jetons)
- Ultra : 120 $/mois (~9,8 milliards de jetons)
Tous les niveaux partagent un pool de jetons unifié pour le texte, les images, la parole et la musique. Un mode de réflexion peut être activé par requête : activé pour les raisonnements complexes et les tâches d'agent, désactivé pour les scénarios sensibles à la latence.
Surtout, des poids ouverts et un rapport technique sont attendus sur Hugging Face et GitHub dans les jours suivant le lancement, ce qui permettra un déploiement entièrement auto-hébergé.
MiniMax a également mis à jour MiniMax Code, son compagnon de codage agent, qui utilise une boucle contradictoire Producer + Verifier pour diviser les tâches volumineuses en flux de travail simultanés à plusieurs étapes qui peuvent s'exécuter de manière autonome pendant des jours.## Vue d'ensemble
M3 arrive à un moment où l’industrie de l’IA se divise selon deux axes. D’un côté, les modèles frontières propriétaires deviennent plus performants mais aussi plus chers et plus verrouillés. D’un autre côté, l’écosystème ouvert a eu du mal à combler l’écart sur les dimensions les plus importantes pour le déploiement dans le monde réel.
Le MiniMax M3 ne se contente pas de réduire cet écart, il l'élimine dans plusieurs catégories critiques. Pour le codage, le raisonnement en contexte long et la compréhension multimodale, le monde ouvert dispose désormais d'un modèle qui ne vous demande pas de faire de compromis.
Pour les organisations qui construisent une infrastructure d’IA souveraine au Moyen-Orient et au-delà, cela change complètement la donne. La capacité Frontier AI n’est plus quelque chose que vous louez. C'est quelque chose que vous pouvez posséder.