GPT-5.6 è qui: Sol Ultra sfonda il 91% su TerminalBench, ma il governo USA ti deve dare il permesso di usarlo

OpenAI ha appena annunciato GPT-5.6 — e non è il solito aggiornamento incrementale. La serie porta tre modelli (Sol, Terra, Luna), una nuova modalità "ultra" che scompone il lavoro tra sub-agenti, e un rollout che passa attraverso l'approvazione del governo americano cliente per cliente — un meccanismo senza precedenti per un lancio commerciale. Partiamo dai numeri, perché sono impressionanti.

TerminalBench 2.1

GPT-5.6 Sol Ultra: 91.9% (nuovo stato dell'arte)
GPT-5.6 Sol Max: 88.8%
Claude Mythos 5: 88.0%
GPT-5.6 Terra: 84.3%
Claude Fable 5: 84.3%
GPT-5.5: 83.4%
GPT-5.6 Luna: 82.5%
Claude Opus 4.8: 78.9%
Gemini 3.1 Pro Preview: 70.7% Tre cose saltano all'occhio. La versione base di Sol (Max, 88.8%) batte già entrambi i modelli frontier di Anthropic. La versione Ultra (91.9%) stacca tutti di quasi 4 punti. Ma la sorpresa vera è Terra: a $2.50/$15 per milione di token (metà del prezzo di GPT-5.5) pareggia Claude Fable 5 (84.3%) e supera GPT-5.5 (83.4%). Non è la fascia "economica sacrificata": è un modello che compete con i frontier a prezzo dimezzato. E Luna, a $1/$6 (un quinto di Sol), arriva a 82.5% — a un punto da GPT-5.5, che costa 5 volte tanto.

Sub-agenti integrati nel modello

La modalità "ultra" non è un tool separato: è una modalità di ragionamento nativa del modello. Sol Ultra attiva sub-agenti specializzati che si dividono il lavoro su task lunghi e complessi — planning, esecuzione, verifica — in parallelo. OpenAI ha costruito un'orchestrazione multi-agente direttamente dentro il modello. C'è anche una nuova modalità "max" per il ragionamento profondo (più tempo per pensare, output più meditati), e una partnership con Cerebras che da luglio promette fino a 750 token al secondo su hardware dedicato.

I tre modelli e i prezzi

Sol: ammiraglia, massima capacità — $5.00 input / $30.00 output per 1M token
Terra: bilanciato, competitivo con GPT-5.5 a metà prezzo — $2.50 / $15.00
Luna: veloce, economico — $1.00 / $6.00 La famiglia di nomi (Sol, Terra, Luna) non è marketing: identifica tier di capacità permanenti che evolveranno su cadenze indipendenti. Il numero (5.6) indica la generazione; il nome la fascia.

Il governo USA ti deve approvare

Qui la storia si fa interessante — e per chi lavora dall'Italia o dall'Europa, rilevante. L'amministrazione Trump ha chiesto a OpenAI di scaglionare il rilascio di GPT-5.6 per ragioni di sicurezza nazionale. L'azienda ha acconsentito: il modello è disponibile solo in limited preview per circa 20 aziende pre-approvate dal governo. L'accesso viene concesso cliente per cliente, con approvazione caso per caso da parte dell'Office of the National Cyber Director e dell'Office of Science and Technology Policy. OpenAI prevede di allargare l'accesso la prossima settimana e di arrivare a una disponibilità generale "nelle prossime settimane". Ma il meccanismo è chiaro: dopo il blocco dei modelli Anthropic, anche OpenAI si adegua a un processo in cui il governo USA ha l'ultima parola su chi può usare un modello commerciale di frontiera. Non è un caso isolato. Anthropic ha ricevuto un trattamento più duro: Mythos 5 e Fable 5 sono stati sospesi con un ordine di controllo export che vieta l'accesso anche ai dipendenti non cittadini statunitensi della stessa Anthropic. OpenAI ottiene un accordo più morbido (limited preview invece di sospensione), ma il precedente è lo stesso: i modelli più capaci passano attraverso un filtro governativo. OpenAI lo dice apertamente nel blog post: "Non crediamo che questo tipo di processo di accesso governativo debba diventare lo standard a lungo termine. Tiene gli strumenti migliori lontani da utenti, sviluppatori, aziende, cyber defender e partner globali che ne hanno bisogno."

Sviluppare dall'Italia e dall'Europa

Al momento, quasi nulla di immediatamente utilizzabile. Se non sei tra le circa 20 aziende del programma preview, GPT-5.6 non è disponibile né via API né via Codex né via ChatGPT. L'accesso si allargherà, ma la tempistica è vaga ("prossime settimane") e l'Executive Order sull'AI firmato da Trump a inizio giugno impone all'amministrazione di stabilire entro agosto un processo classificato per valutare i modelli con capacità cyber avanzate — i cosiddetti "covered frontier models". Per i developer europei, la domanda pratica è: quando GPT-5.6 arriverà sulle API accessibili dall'EU? E soprattutto: arriverà con le stesse funzionalità o con un subset castrato dai controlli export? Intanto, un dato concreto: Terra ($2.50/$15 per 1M token) è pensato per competere con GPT-5.5 a metà prezzo. Se il rapporto qualità-prezzo regge, potrebbe diventare il default per carichi di lavoro agentici dove oggi si usa GPT-5.5. Luna ($1/$6) è la fascia più interessante per automazioni e pipeline a basso costo — un prezzo che inizia a mordere la fascia media del mercato.

I caveat

I benchmark vanno presi per quello che sono: numeri diffusi dal vendor. TerminalBench 2.1 è un benchmark rispettabile (task da terminale reali, non quiz accademici), ma i punteggi vengono dal grafico pubblicato da OpenAI — non sono misure indipendenti. Detto questo, il confronto è interno alla stessa metrica e gli avversari (Mythos 5, Fable 5, Opus 4.8) sono esplicitamente nominati e quotati. Al netto dei caveat, il salto tecnico è reale: l'orchestrazione multi-agente integrata nel modello non è un wrapper, è un cambio di architettura. Se funziona come dichiarato, cambia il modo in cui si progettano workflow agentici complessi — non più "un prompt, una risposta", ma "un obiettivo, N sub-agenti che collaborano". Fonti

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

TerminalBench 2.1

GPT-5.6 Sol Ultra: 91.9% (nuovo stato dell'arte)

GPT-5.6 Sol Max: 88.8%

Claude Mythos 5: 88.0%

GPT-5.6 Terra: 84.3%

Claude Fable 5: 84.3%

GPT-5.5: 83.4%

GPT-5.6 Luna: 82.5%

Claude Opus 4.8: 78.9%

Gemini 3.1 Pro Preview: 70.7% Tre cose saltano all'occhio. La versione base di Sol (Max, 88.8%) batte già entrambi i modelli frontier di Anthropic. La versione Ultra (91.9%) stacca tutti di quasi 4 punti. Ma la sorpresa vera è Terra: a $2.50/$15 per milione di token (metà del prezzo di GPT-5.5) pareggia Claude Fable 5 (84.3%) e supera GPT-5.5 (83.4%). Non è la fascia "economica sacrificata": è un modello che compete con i frontier a prezzo dimezzato. E Luna, a $1/$6 (un quinto di Sol), arriva a 82.5% — a un punto da GPT-5.5, che costa 5 volte tanto.

Sub-agenti integrati nel modello

I tre modelli e i prezzi

Sol: ammiraglia, massima capacità — $5.00 input / $30.00 output per 1M token

Terra: bilanciato, competitivo con GPT-5.5 a metà prezzo — $2.50 / $15.00

Luna: veloce, economico — $1.00 / $6.00 La famiglia di nomi (Sol, Terra, Luna) non è marketing: identifica tier di capacità permanenti che evolveranno su cadenze indipendenti. Il numero (5.6) indica la generazione; il nome la fascia.

Il governo USA ti deve approvare

Sviluppare dall'Italia e dall'Europa

I caveat

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

GPT-5.6 è qui: Sol Ultra sfonda il 91% su TerminalBench, ma il governo USA ti deve dare il permesso di usarlo

TerminalBench 2.1

Sub-agenti integrati nel modello

I tre modelli e i prezzi

Il governo USA ti deve approvare

Sviluppare dall'Italia e dall'Europa

I caveat

Michael Gasperini@TheStreamCode

GPT-5.6 è qui: Sol Ultra sfonda il 91% su TerminalBench, ma il governo USA ti deve dare il permesso di usarlo

TerminalBench 2.1

Sub-agenti integrati nel modello

I tre modelli e i prezzi

Il governo USA ti deve approvare

Sviluppare dall'Italia e dall'Europa

I caveat

Michael Gasperini@TheStreamCode