MiniMax M3: coding di frontiera, 1M di contesto e multimodalità nativa — gratis su OpenCode

Il 1 giugno 2026 il laboratorio di Shanghai MiniMax ha rilasciato M3, il suo nuovo flagship LLM. Non è l'ennesimo aggiornamento incrementale: M3 è progettato esplicitamente per il lavoro "long-horizon" dei coding agent, con una finestra di contesto reale da 1 milione di token, multimodalità nativa e un pricing che, se i numeri reggono, è tra i più aggressivi del mercato. I pesi open-weight e il technical report completo sono attesi su Hugging Face e GitHub nei prossimi giorni.

Perché M3 è diverso da M2

La tesi di MiniMax è che per un coding agent efficace servano tre cose insieme — e che finora solo i modelli closed source le avessero tutte:

capacità di coding e tool use di frontiera;
finestra di contesto reale da 1 milione di token (con minimo garantito di 512K);
multimodalità nativa su immagini e video, non aggiunta dopo il pretraining.

Dal punto di vista architetturale, la novità principale è il ritorno alla sparse attention. Durante l'intera generazione M2 (M2, M2.1, M2.5, M2.7) MiniMax aveva usato la full attention, documentando nel proprio blog di ingegneria che l'infrastruttura per attention efficiente "non era ancora matura". Con M3 cambiano rotta: la nuova architettura si chiama MiniMax Sparse Attention (MSA).

Il risultato pratico, sempre secondo i dati dichiarati:

il costo per token a 1M di contesto scende a 1/20 rispetto alla generazione precedente;
il prefill (elaborazione input) è oltre 9× più veloce;
il decoding (generazione output) è oltre 15× più veloce;
l'output si attesta intorno a ~100 token/sec, indicato come ~3× più veloce di Claude Opus 4.7.

Il dettaglio tecnico che MiniMax sottolinea: MSA usa Grouped Query Attention (GQA) come base — non Multi-head Latent Attention — e seleziona i blocchi sui key-value reali, non su una rappresentazione compressa. È il meccanismo con cui dichiarano di aver recuperato i vantaggi della sparse attention senza degradare la qualità.

Benchmark: cosa dicono i numeri (e cosa non dicono)

I benchmark che circolano sono dichiarati da MiniMax e ottenuti in parte sulla propria infrastruttura, spesso con scaffolding agent (Claude Code, Mini-SWE-Agent, Terminus). Vanno letti come punto di partenza, non come verdetto definitivo.

| Benchmark | M3 |
|---|---|
| SWE-Bench Pro | 59,0% |
| Terminal-Bench 2.1 | 66,0% |
| SWE-fficiency | 34,8% |
| KernelBench Hard | 28,8% |
| MCP Atlas | 74,2% |
| BrowseComp | 83,5 (vs Opus 4.7 a 79,3) |
| PostTrainBench | 0,37 (#3, dietro Opus 4.7 a 0,424 e GPT-5.5 a 0,393) |

Sul coding agent, M3 supera GPT-5.5 e Gemini 3.1 Pro su SWE-Bench Pro e si avvicina a Opus 4.7. Sul multimodale, batte Gemini 3.1 Pro su OmniDocBench, prende il primo posto su Claw-Eval e supera Opus 4.7 su SVG-Bench.

Una nota di onestà: al lancio M3 non è ancora sulla leaderboard DeepSWE, la più rigorosa per task software long-horizon. Le run indipendenti arriveranno nei prossimi giorni e diranno molto più di questi numeri.

Pricing: l'argomento più aggressivo

Il punto dove MiniMax preme di più è il prezzo:

API: ~$0,30 per milione di token in input, blended ~$0,06/M con cache ottimizzata;
tariffa standard fino a 512K token di input, con un long-context rate sopra quella soglia;
piani mensili: Plus $20 (~1,7B token), Max $50 (~5,1B token), Ultra $120 (~9,8B token).

Confronto diretto: Claude Opus 4.7 si trova intorno a ~$5/M input e ~$25/M output. Se la qualità regge, M3 costa oltre 15× meno in input rispetto a Opus — ed è open-weight.

Le demo long-horizon mostrate al lancio

MiniMax ha presentato tre demo di task "da ore, non da prompt singolo":

Riproduzione autonoma di un paper ICLR 2025 in ~12 ore: 18 commit, 23 figure, esperimenti replicati dall'inizio alla fine;
Ottimizzazione di un kernel CUDA FP8 GEMM su GPU Hopper in ~24 ore: 147 submission, 1.959 tool call, utilizzo hardware portato dal 7,6% al 71,3% (9,4× di speedup), zero intervento umano;
PostTrainBench: dato un base model, M3 ha condotto in autonomia l'intera pipeline di post-training in meno di 12 ore.

Sono task curati e dimostrativi, non carichi di lavoro reali, ma danno l'idea di dove MiniMax vuole posizionare il modello: un sistema che lavora a lungo senza supervisione.

MiniMax Code: modello più harness

M3 esce insieme a MiniMax Code, l'harness agent che lo avvolge. È costruito in parte sopra i progetti open source OpenCode e Pi, e offre un Agent Team framework, un loop producer/verifier per l'auto-correzione e computer use tramite la multimodalità nativa. La direzione è la stessa presa da Claude Code, Codex CLI e Gemini CLI: la competizione non è più "qual è il modello migliore", ma "modello + harness".

Come provarlo subito

Tre canali ufficiali:

API MiniMax: chiave dal console, modello MiniMax-M3, endpoint OpenAI-compatible (Authorization: Bearer);
Token Plan mensile (Plus/Max/Ultra) per chi vuole un tetto di spesa fisso;
MiniMax Code: l'IDE/agent ufficiale.

C'è anche una scorciatoia più rapida: su OpenCode Zen il modello compare come minimax-m3-free nella lista modelli ed è gratuito per un periodo limitato — comodo per benchmark rapidi o side project senza dover configurare la chiave MiniMax. Vale lo stesso avviso degli altri modelli *-free su Zen: i dati potrebbero essere usati per migliorare il modello durante il periodo gratuito, quindi niente codice proprietario o credenziali.

Fonti

MiniMax M3 — pagina ufficiale — MiniMax, 1 giugno 2026
MiniMax M3 Specs, Benchmarks, and Pricing (2026) — Fello AI, 1 giugno 2026 (analisi indipendente dei numeri dichiarati)
OpenCode Zen — Model List — OpenCode (verificato 1 giugno 2026: minimax-m3-free presente)
OpenCode Zen Docs — OpenCode

Cosa ne pensate di questo approccio? Il training multimodale nativo — invece di "aggiungere un encoder sopra" — vi sembra un vantaggio tecnico reale o principalmente una mossa di marketing?

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

Perché M3 è diverso da M2

La tesi di MiniMax è che per un coding agent efficace servano tre cose insieme — e che finora solo i modelli closed source le avessero tutte:

capacità di coding e tool use di frontiera;
finestra di contesto reale da 1 milione di token (con minimo garantito di 512K);
multimodalità nativa su immagini e video, non aggiunta dopo il pretraining.

Il risultato pratico, sempre secondo i dati dichiarati:

il costo per token a 1M di contesto scende a 1/20 rispetto alla generazione precedente;
il prefill (elaborazione input) è oltre 9× più veloce;
il decoding (generazione output) è oltre 15× più veloce;
l'output si attesta intorno a ~100 token/sec, indicato come ~3× più veloce di Claude Opus 4.7.

Benchmark: cosa dicono i numeri (e cosa non dicono)

Pricing: l'argomento più aggressivo

Il punto dove MiniMax preme di più è il prezzo:

API: ~$0,30 per milione di token in input, blended ~$0,06/M con cache ottimizzata;
tariffa standard fino a 512K token di input, con un long-context rate sopra quella soglia;
piani mensili: Plus $20 (~1,7B token), Max $50 (~5,1B token), Ultra $120 (~9,8B token).

Confronto diretto: Claude Opus 4.7 si trova intorno a ~$5/M input e ~$25/M output. Se la qualità regge, M3 costa oltre 15× meno in input rispetto a Opus — ed è open-weight.

Le demo long-horizon mostrate al lancio

MiniMax ha presentato tre demo di task "da ore, non da prompt singolo":

Riproduzione autonoma di un paper ICLR 2025 in ~12 ore: 18 commit, 23 figure, esperimenti replicati dall'inizio alla fine;
Ottimizzazione di un kernel CUDA FP8 GEMM su GPU Hopper in ~24 ore: 147 submission, 1.959 tool call, utilizzo hardware portato dal 7,6% al 71,3% (9,4× di speedup), zero intervento umano;
PostTrainBench: dato un base model, M3 ha condotto in autonomia l'intera pipeline di post-training in meno di 12 ore.

Sono task curati e dimostrativi, non carichi di lavoro reali, ma danno l'idea di dove MiniMax vuole posizionare il modello: un sistema che lavora a lungo senza supervisione.

MiniMax Code: modello più harness

Come provarlo subito

Tre canali ufficiali:

API MiniMax: chiave dal console, modello MiniMax-M3, endpoint OpenAI-compatible (Authorization: Bearer);
Token Plan mensile (Plus/Max/Ultra) per chi vuole un tetto di spesa fisso;
MiniMax Code: l'IDE/agent ufficiale.

Fonti

MiniMax M3 — pagina ufficiale — MiniMax, 1 giugno 2026
MiniMax M3 Specs, Benchmarks, and Pricing (2026) — Fello AI, 1 giugno 2026 (analisi indipendente dei numeri dichiarati)
OpenCode Zen — Model List — OpenCode (verificato 1 giugno 2026: minimax-m3-free presente)
OpenCode Zen Docs — OpenCode

Cosa ne pensate di questo approccio? Il training multimodale nativo — invece di "aggiungere un encoder sopra" — vi sembra un vantaggio tecnico reale o principalmente una mossa di marketing?

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

MiniMax M3: coding di frontiera, 1M di contesto e multimodalità nativa — gratis su OpenCode

Perché M3 è diverso da M2

Benchmark: cosa dicono i numeri (e cosa non dicono)

Pricing: l'argomento più aggressivo

Le demo long-horizon mostrate al lancio

MiniMax Code: modello più harness

Come provarlo subito

Fonti

Michael Gasperini@TheStreamCode

Qoder alza il tetto: dentro Cantus e Qwen3.8-Max

Sonnet 5 + Fable 5 Advisor: uno dei sistemi più efficaci mai introdotti in una coding CLI

Kimi Code CLI: coding agent open source con supporto multi-provider

MiniMax M3: coding di frontiera, 1M di contesto e multimodalità nativa — gratis su OpenCode

Perché M3 è diverso da M2

Benchmark: cosa dicono i numeri (e cosa non dicono)

Pricing: l'argomento più aggressivo

Le demo long-horizon mostrate al lancio

MiniMax Code: modello più harness

Come provarlo subito

Fonti

Michael Gasperini@TheStreamCode

Qoder alza il tetto: dentro Cantus e Qwen3.8-Max

Sonnet 5 + Fable 5 Advisor: uno dei sistemi più efficaci mai introdotti in una coding CLI

Kimi Code CLI: coding agent open source con supporto multi-provider