MiniMax M3: la nuova Sparse Attention svelata da Skyler Miao promette speedup fino a 15x

Skyler Miao, Head of Engineering di MiniMax, ha pubblicato su X un'immagine con la scritta "Something BIG is coming", allegando uno schema architetturale della nuova MiniMax Sparse Attention prevista per il modello M3.

Vedi l'immagine: MiniMax Sparse Attention

Dopo il lavoro fatto con la serie M2 — il modello MoE open-weight che molti stanno usando in locale o via API per task agentici — le novità sull'architettura M3 meritano parecchia attenzione.

Come funziona la nuova Sparse Attention

Dall'infografica di Miao emerge un aggiornamento sostanziale alla gestione dell'Attention, basata su un blocco GQA (Grouped-Query Attention) diviso in due fasi distinte:

Index Branch (Selezione): Utilizza le query di indice per eseguire un Block Max Pool e selezionare gli indici Top-k. In pratica calcola "a spanne" dove conviene concentrare l'attenzione, senza elaborare tutto il contesto.
Sparse Branch (Esecuzione): L'attenzione vera e propria viene applicata esclusivamente ai blocchi selezionati nella fase precedente, saltando tutto il resto.

Il risultato è un meccanismo che scala senza i costi quadratici dell'attenzione densa tradizionale.

Le prestazioni: speedup su contesti da 1 milione di token

I grafici nell'immagine chiariscono il motivo dell'entusiasmo. Rispetto al modello M2 attuale:

Prefilling (elaborazione iniziale): M3 ottiene uno speedup di 9.7x su 1 milione di token. Se M2 impiegava circa 20 secondi, M3 lo completa in circa 2 secondi.
Decoding (generazione): Lo speedup sale a 15.6x su 1 milione di token, riducendo la latenza di generazione da circa 1.6 ms a poco più di 0.1 ms.

Numeri che, se confermati in produzione, rappresentano un salto qualitativo significativo per i workflow che richiedono contesti molto lunghi.

Cosa significa per chi fa vibe coding

Secondo i report di Goldman Sachs e i thread di mercato, il rilascio di MiniMax M3 (o della sua iterazione per la piattaforma Hailuo) era previsto per maggio 2026.

Per chi lavora con agenti autonomi, poter elaborare 1 milione di token di log, un'intera repository o documentazione estesa in 2 secondi di prefilling e con generazione quasi istantanea cambia concretamente il tipo di task affrontabili in tempo reale.

Restano aperte due domande chiave: M3 rimarrà open-weight come M2? E come verrà resa disponibile la nuova architettura via API? Se mantiene le promesse, potrebbe dare filo da torcere anche a DeepSeek.

Seguireste un modello come M3 per workflow agentici su contesti lunghi, o preferite aspettare benchmark indipendenti prima di integrarlo nei vostri stack?

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

Come funziona la nuova Sparse Attention

Dall'infografica di Miao emerge un aggiornamento sostanziale alla gestione dell'Attention, basata su un blocco GQA (Grouped-Query Attention) diviso in due fasi distinte:

Index Branch (Selezione): Utilizza le query di indice per eseguire un Block Max Pool e selezionare gli indici Top-k. In pratica calcola "a spanne" dove conviene concentrare l'attenzione, senza elaborare tutto il contesto.

Sparse Branch (Esecuzione): L'attenzione vera e propria viene applicata esclusivamente ai blocchi selezionati nella fase precedente, saltando tutto il resto.

Il risultato è un meccanismo che scala senza i costi quadratici dell'attenzione densa tradizionale.

Le prestazioni: speedup su contesti da 1 milione di token

I grafici nell'immagine chiariscono il motivo dell'entusiasmo. Rispetto al modello M2 attuale:

Prefilling (elaborazione iniziale): M3 ottiene uno speedup di 9.7x su 1 milione di token. Se M2 impiegava circa 20 secondi, M3 lo completa in circa 2 secondi.

Decoding (generazione): Lo speedup sale a 15.6x su 1 milione di token, riducendo la latenza di generazione da circa 1.6 ms a poco più di 0.1 ms.

Numeri che, se confermati in produzione, rappresentano un salto qualitativo significativo per i workflow che richiedono contesti molto lunghi.

Cosa significa per chi fa vibe coding

Secondo i report di Goldman Sachs e i thread di mercato, il rilascio di MiniMax M3 (o della sua iterazione per la piattaforma Hailuo) era previsto per maggio 2026.

Seguireste un modello come M3 per workflow agentici su contesti lunghi, o preferite aspettare benchmark indipendenti prima di integrarlo nei vostri stack?

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

MiniMax M3: la nuova Sparse Attention svelata da Skyler Miao promette speedup fino a 15x

Come funziona la nuova Sparse Attention

Le prestazioni: speedup su contesti da 1 milione di token

Cosa significa per chi fa vibe coding

Michael Gasperini@TheStreamCode

Qoder alza il tetto: dentro Cantus e Qwen3.8-Max

Sonnet 5 + Fable 5 Advisor: uno dei sistemi più efficaci mai introdotti in una coding CLI

Kimi Code CLI: coding agent open source con supporto multi-provider

MiniMax M3: la nuova Sparse Attention svelata da Skyler Miao promette speedup fino a 15x

Come funziona la nuova Sparse Attention

Le prestazioni: speedup su contesti da 1 milione di token

Cosa significa per chi fa vibe coding

Michael Gasperini@TheStreamCode

Qoder alza il tetto: dentro Cantus e Qwen3.8-Max

Sonnet 5 + Fable 5 Advisor: uno dei sistemi più efficaci mai introdotti in una coding CLI

Kimi Code CLI: coding agent open source con supporto multi-provider