Sakana Fugu: non un modello, ma un "direttore d'orchestra" che pareggia Mythos

Premessa doverosa, perché la notizia sta già girando un po' distorta: Fugu non "batte" Mythos. E soprattutto Fugu non è un modello. Ho letto la pagina ufficiale e il quadro è più interessante di così. Vi spiego.
Cos'è davvero Fugu
Sakana AI (quelli giapponesi delle ricerche evolutive, ex Google Brain) ha lanciato Sakana Fugu, che loro stessi descrivono come "multi-agent system as a model". Tradotto: non è un LLM nuovo addestrato da zero, è un sistema che orchestra dinamicamente altri modelli frontier (Opus, Gemini, GPT e compagnia) e li fa collaborare su un singolo task, esponendo il tutto dietro una sola API OpenAI-compatible.
L'idea di fondo: invece di decidere a mano chi fa cosa, il sistema impara ad assemblare gli agenti da un pool e a coordinarli con schemi di collaborazione che un umano non penserebbe mai. Dietro ci sono due paper per ICLR 2026 — TRINITY (un coordinatore "evoluto" che assegna ruoli Thinker/Worker/Verifier) e Conductor (addestrato in RL per inventarsi strategie di coordinamento in linguaggio naturale).
Ci sono due tagli: Fugu (bilanciato, default per il lavoro quotidiano — in beta si chiamava fugu-mini) e Fugu Ultra (fugu-ultra-20260615, pool di agenti più profondo, ottimizzato sulla qualità per task tosti: riproduzione di paper, Kaggle, analisi di sicurezza, ricerca su brevetti). Hanno fatto girare una beta con quasi 500 utenti prima del lancio.
Dettaglio che a noi che vibecoddiamo interessa parecchio: l'integrazione "ufficiale" col coding è un CLI chiamato codex-fugu. Uno che ha letto lo script di installazione ha scoperto che sotto è semplicemente un wrapper bash da ~390 righe attorno al Codex CLI di OpenAI, lanciato con un profilo -p fugu. Non c'è un CLI proprietario: si appoggiano su Codex e cambiano provider. Pulito, ma è bene saperlo.
E qui la frase su "batte Mythos" va corretta
Sulla pagina dei benchmark Sakana scrive nero su bianco che i modelli Fugu superano i modelli frontier accessibili pubblicamente e sono "alla pari" (shoulder-to-shoulder) con Fable 5 e Mythos Preview. Non "li battono". Pareggio dichiarato.
Aggiungo un dettaglio onesto che nessuno sta sottolineando: nella tabella dei benchmark Mythos e Fable non compaiono nemmeno come colonne. Il confronto numerico vero è solo contro Opus 4.8, Gemini 3.1 Pro e GPT 5.5, perché — parole loro — Mythos e Fable non sono pubblicamente accessibili e quindi non sono nemmeno nel pool di agenti di Fugu. La parità con Mythos resta quindi un'affermazione di Sakana, non un numero che possiamo verificare in tabella. Teniamolo a mente.
Detto questo, contro i frontier pubblici i numeri sono notevoli (Fugu Ultra):
- SWE-Bench Pro: 73,7 vs 69,2 di Opus 4.8
- TerminalBench 2.1: 82,1 vs 74,6
- LiveCodeBench: 93,2, primo del gruppo
- GPQA-Diamond: 95,5
Sul coding e sull'agentic sta davanti ai modelli che usiamo tutti i giorni. Il che ha senso: se orchestri bene Opus + Gemini + GPT, tiri fuori più del singolo. La domanda interessante è quanto di questo vantaggio è il coordinamento e quanto è semplicemente "ho tre frontier model che votano".
Il punto che a noi italiani brucia
Fugu non è disponibile in UE/EEA. Lo scrivono due volte: stanno ancora lavorando alla compliance GDPR e per ora niente Unione Europea. Dall'Italia, al momento, non lo accendete. Fine.
C'è anche un sottotesto geopolitico che si lega alle notizie delle ultime settimane sui blocchi all'accesso di Mythos/Fable: Sakana vende esplicitamente Fugu come "capacità frontier senza il rischio dei controlli all'export". Cioè: comprano la spinta della narrazione "i modelli americani potrebbero esservi tagliati, noi no". Furbi.
Prezzi (per quando/se arriverà da noi)
- Fugu Ultra (pay-as-you-go, per 1M token): $5 input / $30 output / $0.50 cached. Raddoppia oltre i 272K di contesto.
- Fugu normale: paghi la tariffa del modello sottostante più "alto" del pool, senza stacking — un'unica rate, non la somma degli agenti.
- Abbonamenti: Standard $20, Pro $100 (10× Standard), Max $200 (20× Standard). Chi sottoscrive entro fine luglio 2026 ha il secondo mese gratis.
La mia lettura
La cosa più interessante secondo me non è il benchmark, è il paradigma. Per noi che vibecoddiamo, "sistema multi-agente esposto come un singolo endpoint" è esattamente il pattern che molti di noi si stanno cucinando a mano con orchestratori, router e fallback tra provider. Sakana lo impacchetta e lo vende come prodotto, con il routing che è letteralmente segreto industriale (non ti dicono quali modelli ha usato per la tua query).
I dubbi che mi restano: latenza (Ultra dichiarano apertamente che è lento), il fatto che dipendi comunque dai frontier altrui (se Anthropic/Google alzano i prezzi, Fugu se li mangia), e l'opacità totale sul routing. E ovviamente l'irraggiungibilità da qui.
Voi che ne pensate — il futuro del vibecoding è "un endpoint che orchestra tutti gli altri", o è l'ennesimo wrapper venduto bene?
Fonti: pagina ufficiale Fugu (sakana.ai/fugu), release blog (sakana.ai/fugu-release), technical report e CLI nel repo SakanaAI/fugu su GitHub, paper TRINITY/Conductor su arXiv.
📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

Scritto da
Michael Gasperini@TheStreamCode
Founder & Sviluppatore
Founder di Vibecoding Italia, la community italiana sull'intelligenza artificiale. Progetta e sviluppa prodotti con l'AI e ne racconta l'applicazione pratica attraverso guide e articoli.

