L'AI che aiuta a costruire altra AI: perché l'articolo di Anthropic riguarda già gli agenti di coding

Anthropic Institute ha pubblicato un'analisi sulla recursive self-improvement: l'ipotesi in cui un sistema di intelligenza artificiale diventa capace di progettare e sviluppare autonomamente il proprio successore. Non è un annuncio di AGI, né una previsione certa — Anthropic lo dice esplicitamente. Ma il tema è meno lontano di quanto sembri, e una parte del meccanismo è già visibile oggi in chi lavora con agenti di coding.

La progressione che Anthropic descrive

L'articolo tratteggia una linea temporale piuttosto chiara sul modo in cui l'AI ha cambiato il lavoro di engineering:

2021–2023: sviluppo tradizionale, persone che scrivono codice e documentazione.
2023–2025: i chatbot diventano utili per snippet, spiegazioni e supporto puntuale.
2025–2026: arrivano agenti capaci di modificare direttamente i file.
Oggi: gli agenti possono eseguire codice, leggere output, correggere errori e delegare ore di lavoro ad altri agenti.

Questo passaggio cambia il problema di fondo. Non si tratta più solo di "scrivere codice più velocemente": se un agente può lavorare per ore su un repository, il punto diventa capire come controllare ciò che produce.

Il dato interno di Anthropic

Anthropic cita un numero interno piuttosto forte: i suoi ingegneri oggi spedirebbero in media otto volte più codice per trimestre rispetto al periodo 2021–2025. È un dato diffuso dall'azienda stessa, quindi non va trattato come una misura neutrale e indipendente. Però descrive bene una sensazione che molti sviluppatori stanno già sperimentando: il collo di bottiglia si sta spostando dalla scrittura alla supervisione.

La durata dei task raddoppia ogni quattro mesi

Un altro dato citato nell'articolo riguarda la durata dei compiti completabili autonomamente dai modelli, che raddoppierebbe circa ogni quattro mesi. Alcuni esempi concreti:

Claude Opus 3 (2024): attività software da circa quattro minuti.
Claude Sonnet 3.7: attività da circa un'ora e mezza.
Claude Opus 4.6: attività da circa dodici ore.

Se questa traiettoria regge, il tema pratico non è "l'AI sostituirà gli sviluppatori domani". È un altro: come si lavora con agenti che possono fare molto di più, ma che possono anche sbagliare in modo più ampio e meno visibile?

Più autonomia, più controllo necessario

Più autonomia si dà agli agenti, più devono diventare seri i controlli intorno a loro. Alcune considerazioni pratiche:

Test che verificano davvero il comportamento richiesto, non solo che il progetto compila.
Review dei diff, perché una patch plausibile non è automaticamente corretta.
Limiti chiari su cosa l'agente può toccare da solo, soprattutto quando entrano in gioco architettura, dati, sicurezza o dipendenze.

La recursive self-improvement in senso pieno resta uno scenario futuro. Ma il seme è già visibile: i modelli aiutano a costruire strumenti, esperimenti, codice e processi che serviranno a sviluppare i modelli successivi. È una differenza sostanziale rispetto al semplice autocomplete.

La proposta politica di Anthropic

L'articolo chiude con una posizione più ampia: creare la possibilità di rallentare o mettere temporaneamente in pausa lo sviluppo dei modelli di frontiera, ma solo con coordinamento globale e verifiche credibili. È una proposta difficile da attuare, perché un rallentamento non verificabile rischierebbe di favorire proprio gli attori meno prudenti.

Fonti

Voi come state gestendo questa transizione? State dando più autonomia agli agenti nei vostri progetti, o preferite mantenere un controllo più stretto?

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

La progressione che Anthropic descrive

L'articolo tratteggia una linea temporale piuttosto chiara sul modo in cui l'AI ha cambiato il lavoro di engineering:

2021–2023: sviluppo tradizionale, persone che scrivono codice e documentazione.

2023–2025: i chatbot diventano utili per snippet, spiegazioni e supporto puntuale.

2025–2026: arrivano agenti capaci di modificare direttamente i file.

Oggi: gli agenti possono eseguire codice, leggere output, correggere errori e delegare ore di lavoro ad altri agenti.

Il dato interno di Anthropic

La durata dei task raddoppia ogni quattro mesi

Un altro dato citato nell'articolo riguarda la durata dei compiti completabili autonomamente dai modelli, che raddoppierebbe circa ogni quattro mesi. Alcuni esempi concreti:

Claude Opus 3 (2024): attività software da circa quattro minuti.

Claude Sonnet 3.7: attività da circa un'ora e mezza.

Claude Opus 4.6: attività da circa dodici ore.

Più autonomia, più controllo necessario

Più autonomia si dà agli agenti, più devono diventare seri i controlli intorno a loro. Alcune considerazioni pratiche:

Test che verificano davvero il comportamento richiesto, non solo che il progetto compila.

Review dei diff, perché una patch plausibile non è automaticamente corretta.

Limiti chiari su cosa l'agente può toccare da solo, soprattutto quando entrano in gioco architettura, dati, sicurezza o dipendenze.

La proposta politica di Anthropic

L'AI che aiuta a costruire altra AI: perché l'articolo di Anthropic riguarda già gli agenti di coding

La progressione che Anthropic descrive

Il dato interno di Anthropic

La durata dei task raddoppia ogni quattro mesi

Più autonomia, più controllo necessario

La proposta politica di Anthropic

Fonti

Michael Gasperini@TheStreamCode

Sonnet 5 + Fable 5 Advisor: uno dei sistemi più efficaci mai introdotti in una coding CLI

Claude Sonnet 5: Anthropic avvicina il tier Sonnet a Opus 4.8, stesso prezzo di prima

Claude Opus 5 è disponibile: vicino a Fable 5, metà del prezzo

L'AI che aiuta a costruire altra AI: perché l'articolo di Anthropic riguarda già gli agenti di coding

La progressione che Anthropic descrive

Il dato interno di Anthropic

La durata dei task raddoppia ogni quattro mesi

Più autonomia, più controllo necessario

La proposta politica di Anthropic

Fonti

Michael Gasperini@TheStreamCode

Sonnet 5 + Fable 5 Advisor: uno dei sistemi più efficaci mai introdotti in una coding CLI

Claude Sonnet 5: Anthropic avvicina il tier Sonnet a Opus 4.8, stesso prezzo di prima

Claude Opus 5 è disponibile: vicino a Fable 5, metà del prezzo