OpenRouter lancia Fusion: multi-modello in parallelo che compete con Fable a metà prezzo

OpenRouter ha lanciato Fusion, una API che invece di chiamare un modello solo ne chiama diversi in parallelo, fa sintetizzare i risultati da un "giudice" e restituisce una risposta unica. Il claim è ambizioso: intelligenza comparabile a Claude Fable 5 a circa metà del costo.
Come funziona
Il prompt dell'utente viene inviato simultaneamente a un panel di modelli (fino a 8), ciascuno con web search e web fetch attivi. Un modello giudice riceve tutte le risposte e produce un'analisi strutturata in cinque dimensioni: punti di consenso, contraddizioni, copertura parziale, insight unici e punti ciechi. La risposta finale viene scritta a partire da quell'analisi.
Dal lato client è una singola chiamata API: basta usare lo slug openrouter/fusion, come faresti con qualsiasi altro modello.
I due preset
OpenRouter fornisce due configurazioni pronte (panel e giudice restano comunque personalizzabili):
- Quality: Claude Opus, GPT, Gemini Pro — i modelli frontier.
- Budget: Gemini 3 Flash, Kimi K2.6, DeepSeek V4 Pro.
I numeri del benchmark
OpenRouter ha testato Fusion su DRACO, un benchmark di deep research creato da Perplexity AI: 100 task in 10 domini (medicina, legge, finanza, tech, ecc.), con circa 39 criteri per task tra accuratezza fattuale, profondità, qualità della presentazione e citazioni. I risultati principali (punteggio normalizzato 0–100):
- Fable 5 da solo: 65,3%
- Budget panel (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro): 64,7% — a 0,6 punti da Fable, a circa metà del costo secondo OpenRouter
- Panel frontier (Fable 5 + GPT-5.5): 69,0% — supera qualsiasi modello singolo nel test
Il dettaglio sul prezzo
Fusion non ha un costo fisso: si paga la somma di tutte le completions sottostanti (ogni modello del panel più il giudice). Il "metà prezzo" è riferito al confronto tra budget panel e Fable 5 da solo, non è un prezzo assoluto.
Per prompt tattici e veloci (completamento codice, refactor mirati) è probabilmente overkill; per task di ricerca, analisi comparativa o domande dove sbagliare costa caro, il trade-off può avere senso.
Cose da tenere presenti
I benchmark DRACO sono test interni di OpenRouter, non una valutazione indipendente. Il paper DRACO stesso nota che i punteggi assoluti possono variare di 10–25 punti in base al modello usato come giudice. Inoltre Fable 5 ha bloccato 7 task su 100 per filtri sui contenuti: i punteggi che lo coinvolgono riflettono 93 task, gli altri modelli tutti e 100.
Qualche link utile:
- Fusion API — pagina principale
- Documentazione tecnica Fusion
- Blog post: Surpassing Frontier Performance with Fusion
Per chi usa coding agent
Fusion è uno slug come un altro: se il tuo tool accetta endpoint OpenAI-compatible, puoi chiamarlo al posto del modello singolo. Non è pensato per scrivere codice, ma per task di ricerca, analisi e decisioni architetturali.
Lo vedi utile nel tuo workflow, o resta una cosa da benchmark che nella pratica non useresti?
📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.


