DeepSeek Chat attiva la Vision Mode: ora puoi caricare immagini (beta)

DeepSeek ha rilasciato in beta la modalità DeepSeek Vision nella chat ufficiale. Puoi caricare immagini e il modello le analizza, descrive, fa OCR e risponde a domande sul contenuto visivo. Al momento è disponibile solo su web e app — il supporto API non è ancora documentato ufficialmente.

Il lancio

Il 23 giugno 2026 DeepSeek ha attivato la Vision Mode in beta su chat.deepseek.com e sull'app mobile. La nuova modalità appare come opzione accanto alle classiche "DeepSeek" e "R1" (ora V4 Pro/Flash), permettendo di caricare immagini e porre domande sul loro contenuto.

TestingCatalog ha confermato il rollout su X, e gli utenti su Reddit stanno già condividendo le prime impressioni.

Cosa fa

La modalità Vision è pensata per task di image understanding:

Descrizione dettagliata di immagini e foto
OCR — riconoscimento testo in screenshot, documenti, tabelle
Q&A visivo — domande specifiche su elementi nell'immagine
Analisi di grafici e diagrammi
Riconoscimento di layout e struttura visiva

Nei test degli utenti, il modello riesce a elencare correttamente tutti i dettagli di un'immagine con buona accuratezza.

Supporto API: non documentato

Al momento la documentazione ufficiale dell'API DeepSeek non elenca il supporto per input di immagini. I modelli deepseek-v4-pro e deepseek-v4-flash nella pagina prezzi riportano solo funzionalità testuali: tool calls, JSON output, FIM e prefix completion. Nessun riferimento a image_url o parametri multimodali nell'endpoint /chat/completions. Questo non significa che il supporto sia tecnicamente assente — DeepSeek potrebbe averlo abilitato senza aggiornare la documentazione — ma al momento non ci sono comunicazioni ufficiali in merito.

DeepSeek non ha ancora comunicato una roadmap pubblica per il supporto API della Vision Mode. Considerando che la beta in chat è appena partita, è probabile che l'API arrivi in un secondo momento — come già successo con GPT-4V e Claude Vision.

Come usarla oggi

Vai su chat.deepseek.com
Seleziona la modalità Vision dal selettore in alto (il rollout è graduale: se non la vedi, potrebbe non essere ancora attiva per il tuo account)
Carica un'immagine o incolla uno screenshot
Fai domande in linguaggio naturale sul contenuto

È completamente gratuita, come tutta DeepSeek Chat.

Cosa sappiamo dell'architettura

TechNode aveva anticipato ad aprile 2026 che DeepSeek stava testando una variante "V4 Vision" con capacità multimodali. Secondo un'analisi di MindStudio, il modello Vision di DeepSeek userebbe circa 90 KV cache entries per immagine, contro le ~870 di Claude — un'efficienza quasi 10x. Se confermato, questo spiegherebbe perché DeepSeek può offrire la Vision Mode gratuitamente.

Privacy

DeepSeek memorizza i dati su server in Cina. Per la Vision Mode in beta valgono le stesse precauzioni di sempre: non caricare immagini con dati sensibili, documenti riservati o informazioni personali.

Cosa aspettarsi

La Vision Mode in chat è un primo passo. Se DeepSeek seguirà il pattern di altri provider, il supporto API arriverà dopo la fase beta. Per chi sviluppa applicazioni che richiedono analisi di immagini, le alternative oggi restano GPT-4V/GPT-5 o Claude Vision via API. Ma se DeepSeek porta la stessa efficienza della chat anche sull'API, con i suoi prezzi (Flash a $0.14/$0.28 per milione di token), potrebbe diventare l'opzione più economica per image understanding su larga scala.

Fonti: TestingCatalog su X · TechNode · MindStudio · DeepSeek API Docs

DeepSeek è già il punto di riferimento per il rapporto qualità-prezzo nel coding. Con la Vision Mode può fare lo stesso per l'image understanding. Voi l'avete già provata? Come si comporta rispetto a GPT-4V o Claude Vision per i vostri casi d'uso?

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

Il lancio

TestingCatalog ha confermato il rollout su X, e gli utenti su Reddit stanno già condividendo le prime impressioni.

Cosa fa

La modalità Vision è pensata per task di image understanding:

Descrizione dettagliata di immagini e foto

OCR — riconoscimento testo in screenshot, documenti, tabelle

Q&A visivo — domande specifiche su elementi nell'immagine

Analisi di grafici e diagrammi

Riconoscimento di layout e struttura visiva

Nei test degli utenti, il modello riesce a elencare correttamente tutti i dettagli di un'immagine con buona accuratezza.

Supporto API: non documentato

Come usarla oggi

Vai su chat.deepseek.com

Seleziona la modalità Vision dal selettore in alto (il rollout è graduale: se non la vedi, potrebbe non essere ancora attiva per il tuo account)

Carica un'immagine o incolla uno screenshot

Fai domande in linguaggio naturale sul contenuto

È completamente gratuita, come tutta DeepSeek Chat.

Cosa sappiamo dell'architettura

Cosa aspettarsi

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

DeepSeek Chat attiva la Vision Mode: ora puoi caricare immagini (beta)

Il lancio

Cosa fa

Supporto API: non documentato

Come usarla oggi

Cosa sappiamo dell'architettura

Privacy

Cosa aspettarsi

Michael Gasperini@TheStreamCode

DeepSeek Chat attiva la Vision Mode: ora puoi caricare immagini (beta)

Il lancio

Cosa fa

Supporto API: non documentato

Come usarla oggi

Cosa sappiamo dell'architettura

Privacy

Cosa aspettarsi

Michael Gasperini@TheStreamCode