Claude Opus 4.8 è il nuovo leader dell'Artificial Analysis Intelligence Index

Artificial Analysis ha aggiornato il suo Intelligence Index e il nuovo leader è Claude Opus 4.8: il modello di Anthropic scala a 61.4 punti e supera GPT-5.5. Il dato più interessante non è solo il sorpasso in sé, ma la natura del miglioramento: Anthropic ha fatto passi avanti sia nel lavoro agentico reale sia nel reasoning accademico di frontiera.
Cosa cambia davvero
Il punto di forza più significativo di Opus 4.8 riguarda i task pratici da agente. Su GDPval-AA — il benchmark che misura lavoro "vero" da knowledge worker, non solo prove accademiche in condizioni ideali — Anthropic torna prima con un Elo di 1.890, che corrisponde a un win rate implicito di circa il 67% contro GPT-5.5.
Questa distinzione è importante: GDPval-AA non è un test pulito su domande a risposta chiusa, ma una valutazione di workflow complessi che si avvicinano a ciò che un professionista fa realmente.
Dove migliora rispetto a Opus 4.7
Rispetto alla versione precedente, il nuovo modello guadagna terreno anche su benchmark più tecnici e specializzati:
- Terminal-Bench Hard — task da terminale complessi;
- τ²-Bench Telecom — ragionamento in domini tecnici;
- IFBench — instruction following avanzato.
Sul fronte scientifico, Claude entra finalmente nel gruppo di testa: su Humanity's Last Exam è davanti a OpenAI e Google, e su CritPt supera Gemini 3.1 Pro, pur restando dietro ai modelli più forti di OpenAI in questo specifico sotto-dominio.
Efficienza e configurazione
Un aspetto da tenere a mente per chi usa il modello in produzione: Opus 4.8 resta nella stessa fascia di costo e configurazione di Opus 4.7. La context window è da 1M di token e il pricing si conferma a $5 per milione di token in input e $25 per milione in output.
Anthropic segnala anche un miglioramento nell'efficienza sui task agentici: meno turni e meno token di output necessari per completare alcuni benchmark pratici — un vantaggio concreto per chi paga a consumo.
Perché conta per chi sviluppa
Per chi usa Claude Code, agenti CLI o workflow di vibe coding, questo update è particolarmente rilevante perché il progresso non riguarda solo la teoria. Anthropic non si è limitata a migliorare i punteggi su test accademici, ma ha allargato il vantaggio su task più realistici: terminale, knowledge work, ragionamento scientifico.
Il messaggio che emerge è chiaro: il gap rispetto ai competitor non si sta chiudendo solo sul coding, ma si sta aprendo anche su ciò che un agente fa davvero in un flusso di lavoro complesso.
Voi state già usando Opus 4.8 nei vostri workflow? Avete notato differenze concrete rispetto alla versione precedente?
📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.


