MiniMax M3: Das Open-Weight-Modell, das 1M-Kontext und

Was M3 anders macht

Das Open-Weight-Ökosystem hat in der Vergangenheit die Fähigkeit gegen die Zugänglichkeit eingetauscht. Sie könnten ein Modell lokal ausführen, aber Sie opferten Kontextlänge, Programmierkompetenz oder multimodale Unterstützung. MiniMax M3 durchbricht diesen Kompromiss in drei Dimensionen.

1. Eine Million Token, nicht eine Million Dollar

Die Hauptfunktion ist das 1M-Token-Kontextfenster von M3 – genug, um eine ganze Codebasis, einen Roman in voller Länge oder Hunderte von Seiten juristischer und technischer Dokumente in einem einzigen Durchgang aufzunehmen. Was dies wirklich beeindruckend macht, ist die Art und Weise, wie MiniMax dies erreicht hat.

Das Unternehmen hat einen neuartigen Aufmerksamkeitsmechanismus namens MiniMax Sparse Attention (MSA) entwickelt, der das Problem der quadratischen Komplexität der standardmäßigen vollen Aufmerksamkeit umgeht. Anstatt jeden Token mit jedem anderen Token zu vergleichen – die O(n²)-Todesspirale, die lange Kontexte rechenintensiv macht – teilt MSA den KV-Cache in Blöcke auf, filtert ihn vorab auf Relevanz und verarbeitet nur die Blöcke, die wichtig sind.

Das Ergebnis ist deutlich: Bei einer Kontextlänge von einer Million Token sinken die Rechenkosten pro Token bei M3 auf 1/20 des Vorgängers. Die Eingabeverarbeitung ist 9-mal schneller. Die Antwortgenerierung ist 15-mal schneller. Und im Rahmen umfassender Ablationsstudien schenkt MSA der überwiegenden Mehrheit der Möglichkeiten die volle Aufmerksamkeit.

2. Codierung, die mit den proprietären Giganten konkurriert

Beim SWE-Bench Pro, dem branchenüblichen Software-Engineering-Benchmark, erreicht M3 59,0 % – übertrifft GPT-5.5 und Gemini 3.1 Pro und landet knapp hinter Anthropics Opus 4.7. In der breiteren Benchmark-Suite sind die Ergebnisse konsistent:

Terminal-Bench 2.1: 66,0 %
MCP-Atlas: 74,2 %
BrowseComp: 83,5 (vor Opus 4.7)
SVG-Bench: übertrifft Opus 4.7

MiniMax begnügte sich nicht mit statischen Benchmarks. Das Team hat ein interaktives Benutzersimulator-Framework entwickelt, das das Modell während des Trainings realen Kooperationsmustern aussetzt – Anforderungsverfeinerung, Multi-Turn-Debugging, Kontextwechsel zwischen Aufgaben. Das Ziel besteht nicht nur darin, Code zu generieren, sondern als zuverlässiger Kooperationspartner im gesamten Entwicklungsworkflow zu fungieren.

3. Native Multimodalität vom ersten Tag an

Im Gegensatz zu Modellen, die die Vision erst im Nachhinein berücksichtigen, wurde M3 mit gemischten Modalitäten von Step Zero trainiert. Interleaved-Daten – bei denen Text und Bilder in Trainingssequenzen auf natürliche Weise miteinander verwoben sind – erwiesen sich als weitaus kritischer als erwartet. Nach dem Neuaufbau der gesamten Datenpipeline kann MiniMax das Training nun auf etwa 100 Billionen Token skalieren.

M3 versteht Text, Bilder und Videos nativ. Es kann einen Desktop-Computer über seine Agentenschnittstelle bedienen. Hierbei handelt es sich nicht um ein separates Visionsmodell, das über einen Adapter hinzugefügt wird – es handelt sich um ein einheitliches multimodales Verständnis, das in die Architektur integriert ist.

Echte Intelligenz, echte Autonomie

MiniMax hat den M3 drei aufreibenden Praxistests unterzogen, die weit mehr offenbaren, als Benchmark-Zahlen jemals könnten.

Test 1: Reproduzieren Sie ein Forschungspapier. Angesichts eines ICLR 2025 Outstanding Paper zur LLM-Feinabstimmungsdynamik arbeitete M3 fast 12 Stunden lang autonom, erstellte 18 Commits und 23 experimentelle Zahlen und reproduzierte erfolgreich die Kernergebnisse des Papiers – einschließlich des Quetscheffekts in DPO-Experimenten und der Wirksamkeit der vorgeschlagenen Abhilfemethode.

Test 2: Optimieren Sie einen CUDA-Kernel. M3 erhielt eine Aufgabenbeschreibung, ein Benchmark-Skript und ein nicht funktionierendes Code-Skelett – keine Referenzimplementierung, keine Verknüpfungen. In rund 24 Stunden kontinuierlicher Ausführung wurden 147 Benchmark-Einreichungen und 1.959 Tool-Aufrufe durchgeführt. Es steigerte die FP8-GEMM-Auslastung auf der NVIDIA Hopper-Architektur von 7,6 % auf 71,3 % – eine Verbesserung um das 9,4-fache. Die meisten Modelle gaben nach 30 Versuchen auf. Die beste Lösung von M3 kam bei Versuch 145.

Test 3: Modelle autonom trainieren. Auf PostTrainBench wurden M3 vier Basismodelle zur Verfügung gestellt, die erst das Vortraining abgeschlossen hatten. Es führte die Datensynthese, das Training, die Auswertung und die Iteration autonom durch – ohne menschliches Eingreifen – und erzielte konkurrenzfähige Ergebnisse im Vergleich zu Opus 4.7 und GPT-5.5.## Warum dies für Sovereign AI wichtig ist

Für Unternehmen und Regierungen im Nahen Osten geht die Attraktivität von M3 über die Benchmark-Tabelle hinaus.

Die Region investiert stark in souveräne KI-Infrastruktur – lokale Rechenzentren, nationale KI-Strategien und regulatorische Rahmenbedingungen, die erfordern, dass sensible Daten innerhalb der Landesgrenzen bleiben. Proprietäre API-basierte Modelle erzeugen ein grundlegendes Spannungsverhältnis: Sie können Fähigkeiten oder Kontrolle haben, aber nicht beides.

Offene Modelle wie der M3 lösen dieses Problem. Sie können genau dasselbe Modell, das mit proprietären Grenzsystemen konkurriert, selbst hosten, Ihre Daten vollständig auf der lokalen Infrastruktur verarbeiten und die volle Kontrolle über Ihre Ein- und Ausgaben behalten. Keine Daten verlassen Ihren Zuständigkeitsbereich.

Das Millionen-Token-Kontextfenster ist besonders wichtig für souveräne KI-Anwendungsfälle. Die Überprüfung von Rechtsdokumenten, die Analyse von Regierungsrichtlinien, groß angelegte Codeprüfungen und arabische NLP-Aufgaben, die sich über riesige Korpora erstrecken – alles wird auf einem einzigen Modell möglich, das auf lokaler Hardware ausgeführt wird, ohne Chunking, ohne Kontextkürzung und ohne Datenverlust an externe APIs.

Preise und Verfügbarkeit

M3 ist ab sofort über die MiniMax-API und Token-Plan-Abonnements verfügbar:

Plus: 20 $/Monat (~1,7 Milliarden Token)
Maximal: 50 $/Monat (~5,1 Milliarden Token)
Ultra: 120 $/Monat (~9,8 Milliarden Token)

Alle Ebenen teilen sich einen einheitlichen Token-Pool für Text, Bild, Sprache und Musik. Ein Denkmodus kann auf Anfrage umgeschaltet werden – aktiviert für komplexe Überlegungen und Agentenaufgaben, deaktiviert für latenzempfindliche Szenarien.

Entscheidend ist, dass offene Gewichtungen und ein technischer Bericht auf Hugging Face und GitHub innerhalb weniger Tage nach dem Start erwartet werden, was eine vollständig selbst gehostete Bereitstellung ermöglichen wird.

MiniMax hat außerdem MiniMax Code, seinen Agenten-Coding-Begleiter, aktualisiert, der eine kontroverse Schleife aus Producer und Verifier verwendet, um große Aufgaben in mehrstufige, gleichzeitige Workflows aufzuteilen, die tagelang autonom ausgeführt werden können.

Das größere Bild

M3 kommt zu einem Zeitpunkt, an dem die KI-Branche entlang zweier Achsen bricht. Einerseits werden proprietäre Frontier-Modelle immer leistungsfähiger, aber auch teurer und gesperrter. Andererseits hat das Open-Weight-Ökosystem Schwierigkeiten, die Lücke in den Dimensionen zu schließen, die für den Einsatz in der Praxis am wichtigsten sind.

Der MiniMax M3 verkleinert diese Lücke nicht nur, sondern beseitigt sie in mehreren kritischen Kategorien. Für die Codierung, das Denken über lange Kontexte und das multimodale Verständnis verfügt die Open-Weight-Welt jetzt über ein Modell, das Sie nicht zu Kompromissen auffordert.

Für Organisationen, die eine souveräne KI-Infrastruktur im Nahen Osten und darüber hinaus aufbauen, ändert sich die Rechnung völlig. Frontier-KI-Fähigkeiten können Sie nicht länger mieten. Es ist etwas, das Sie besitzen können.