MiniMax M3: coding di frontiera, 1M di contesto e multimodalità nativa — gratis su OpenCode

Il 1 giugno 2026 il laboratorio di Shanghai MiniMax ha rilasciato M3, il suo nuovo flagship LLM. Non è l'ennesimo aggiornamento incrementale: M3 è progettato esplicitamente per il lavoro "long-horizon" dei coding agent, con una finestra di contesto reale da 1 milione di token, multimodalità nativa e un pricing che, se i numeri reggono, è tra i più aggressivi del mercato. I pesi open-weight e il technical report completo sono attesi su Hugging Face e GitHub nei prossimi giorni.
Perché M3 è diverso da M2
La tesi di MiniMax è che per un coding agent efficace servano tre cose insieme — e che finora solo i modelli closed source le avessero tutte:
- capacità di coding e tool use di frontiera;
- finestra di contesto reale da 1 milione di token (con minimo garantito di 512K);
- multimodalità nativa su immagini e video, non aggiunta dopo il pretraining.
Dal punto di vista architetturale, la novità principale è il ritorno alla sparse attention. Durante l'intera generazione M2 (M2, M2.1, M2.5, M2.7) MiniMax aveva usato la full attention, documentando nel proprio blog di ingegneria che l'infrastruttura per attention efficiente "non era ancora matura". Con M3 cambiano rotta: la nuova architettura si chiama MiniMax Sparse Attention (MSA).
Il risultato pratico, sempre secondo i dati dichiarati:
- il costo per token a 1M di contesto scende a 1/20 rispetto alla generazione precedente;
- il prefill (elaborazione input) è oltre 9× più veloce;
- il decoding (generazione output) è oltre 15× più veloce;
- l'output si attesta intorno a ~100 token/sec, indicato come ~3× più veloce di Claude Opus 4.7.
Il dettaglio tecnico che MiniMax sottolinea: MSA usa Grouped Query Attention (GQA) come base — non Multi-head Latent Attention — e seleziona i blocchi sui key-value reali, non su una rappresentazione compressa. È il meccanismo con cui dichiarano di aver recuperato i vantaggi della sparse attention senza degradare la qualità.
Benchmark: cosa dicono i numeri (e cosa non dicono)
I benchmark che circolano sono dichiarati da MiniMax e ottenuti in parte sulla propria infrastruttura, spesso con scaffolding agent (Claude Code, Mini-SWE-Agent, Terminus). Vanno letti come punto di partenza, non come verdetto definitivo.
| Benchmark | M3 |
|---|---|
| SWE-Bench Pro | 59,0% |
| Terminal-Bench 2.1 | 66,0% |
| SWE-fficiency | 34,8% |
| KernelBench Hard | 28,8% |
| MCP Atlas | 74,2% |
| BrowseComp | 83,5 (vs Opus 4.7 a 79,3) |
| PostTrainBench | 0,37 (#3, dietro Opus 4.7 a 0,424 e GPT-5.5 a 0,393) |
Sul coding agent, M3 supera GPT-5.5 e Gemini 3.1 Pro su SWE-Bench Pro e si avvicina a Opus 4.7. Sul multimodale, batte Gemini 3.1 Pro su OmniDocBench, prende il primo posto su Claw-Eval e supera Opus 4.7 su SVG-Bench.
Una nota di onestà: al lancio M3 non è ancora sulla leaderboard DeepSWE, la più rigorosa per task software long-horizon. Le run indipendenti arriveranno nei prossimi giorni e diranno molto più di questi numeri.
Pricing: l'argomento più aggressivo
Il punto dove MiniMax preme di più è il prezzo:
- API: ~$0,30 per milione di token in input, blended ~$0,06/M con cache ottimizzata;
- tariffa standard fino a 512K token di input, con un long-context rate sopra quella soglia;
- piani mensili: Plus $20 (~1,7B token), Max $50 (~5,1B token), Ultra $120 (~9,8B token).
Confronto diretto: Claude Opus 4.7 si trova intorno a ~$5/M input e ~$25/M output. Se la qualità regge, M3 costa oltre 15× meno in input rispetto a Opus — ed è open-weight.
Le demo long-horizon mostrate al lancio
MiniMax ha presentato tre demo di task "da ore, non da prompt singolo":
- Riproduzione autonoma di un paper ICLR 2025 in ~12 ore: 18 commit, 23 figure, esperimenti replicati dall'inizio alla fine;
- Ottimizzazione di un kernel CUDA FP8 GEMM su GPU Hopper in ~24 ore: 147 submission, 1.959 tool call, utilizzo hardware portato dal 7,6% al 71,3% (9,4× di speedup), zero intervento umano;
- PostTrainBench: dato un base model, M3 ha condotto in autonomia l'intera pipeline di post-training in meno di 12 ore.
Sono task curati e dimostrativi, non carichi di lavoro reali, ma danno l'idea di dove MiniMax vuole posizionare il modello: un sistema che lavora a lungo senza supervisione.
MiniMax Code: modello più harness
M3 esce insieme a MiniMax Code, l'harness agent che lo avvolge. È costruito in parte sopra i progetti open source OpenCode e Pi, e offre un Agent Team framework, un loop producer/verifier per l'auto-correzione e computer use tramite la multimodalità nativa. La direzione è la stessa presa da Claude Code, Codex CLI e Gemini CLI: la competizione non è più "qual è il modello migliore", ma "modello + harness".
Come provarlo subito
Tre canali ufficiali:
- API MiniMax: chiave dal console, modello
MiniMax-M3, endpoint OpenAI-compatible (Authorization: Bearer); - Token Plan mensile (Plus/Max/Ultra) per chi vuole un tetto di spesa fisso;
- MiniMax Code: l'IDE/agent ufficiale.
C'è anche una scorciatoia più rapida: su OpenCode Zen il modello compare come minimax-m3-free nella lista modelli ed è gratuito per un periodo limitato — comodo per benchmark rapidi o side project senza dover configurare la chiave MiniMax. Vale lo stesso avviso degli altri modelli *-free su Zen: i dati potrebbero essere usati per migliorare il modello durante il periodo gratuito, quindi niente codice proprietario o credenziali.
Fonti
- MiniMax M3 — pagina ufficiale — MiniMax, 1 giugno 2026
- MiniMax M3 Specs, Benchmarks, and Pricing (2026) — Fello AI, 1 giugno 2026 (analisi indipendente dei numeri dichiarati)
- OpenCode Zen — Model List — OpenCode (verificato 1 giugno 2026:
minimax-m3-freepresente) - OpenCode Zen Docs — OpenCode
Cosa ne pensate di questo approccio? Il training multimodale nativo — invece di "aggiungere un encoder sopra" — vi sembra un vantaggio tecnico reale o principalmente una mossa di marketing?
📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.


