MiniMax M3: la nuova Sparse Attention svelata da Skyler Miao promette speedup fino a 15x

Skyler Miao, Head of Engineering di MiniMax, ha pubblicato su X un'immagine con la scritta "Something BIG is coming", allegando uno schema architetturale della nuova MiniMax Sparse Attention prevista per il modello M3.
Vedi l'immagine: MiniMax Sparse Attention
Dopo il lavoro fatto con la serie M2 — il modello MoE open-weight che molti stanno usando in locale o via API per task agentici — le novità sull'architettura M3 meritano parecchia attenzione.
Come funziona la nuova Sparse Attention
Dall'infografica di Miao emerge un aggiornamento sostanziale alla gestione dell'Attention, basata su un blocco GQA (Grouped-Query Attention) diviso in due fasi distinte:
- Index Branch (Selezione): Utilizza le query di indice per eseguire un Block Max Pool e selezionare gli indici Top-k. In pratica calcola "a spanne" dove conviene concentrare l'attenzione, senza elaborare tutto il contesto.
- Sparse Branch (Esecuzione): L'attenzione vera e propria viene applicata esclusivamente ai blocchi selezionati nella fase precedente, saltando tutto il resto.
Il risultato è un meccanismo che scala senza i costi quadratici dell'attenzione densa tradizionale.
Le prestazioni: speedup su contesti da 1 milione di token
I grafici nell'immagine chiariscono il motivo dell'entusiasmo. Rispetto al modello M2 attuale:
- Prefilling (elaborazione iniziale): M3 ottiene uno speedup di 9.7x su 1 milione di token. Se M2 impiegava circa 20 secondi, M3 lo completa in circa 2 secondi.
- Decoding (generazione): Lo speedup sale a 15.6x su 1 milione di token, riducendo la latenza di generazione da circa 1.6 ms a poco più di 0.1 ms.
Numeri che, se confermati in produzione, rappresentano un salto qualitativo significativo per i workflow che richiedono contesti molto lunghi.
Cosa significa per chi fa vibe coding
Secondo i report di Goldman Sachs e i thread di mercato, il rilascio di MiniMax M3 (o della sua iterazione per la piattaforma Hailuo) era previsto per maggio 2026.
Per chi lavora con agenti autonomi, poter elaborare 1 milione di token di log, un'intera repository o documentazione estesa in 2 secondi di prefilling e con generazione quasi istantanea cambia concretamente il tipo di task affrontabili in tempo reale.
Restano aperte due domande chiave: M3 rimarrà open-weight come M2? E come verrà resa disponibile la nuova architettura via API? Se mantiene le promesse, potrebbe dare filo da torcere anche a DeepSeek.
Seguireste un modello come M3 per workflow agentici su contesti lunghi, o preferite aspettare benchmark indipendenti prima di integrarlo nei vostri stack?
📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.


