DeepSeek Chat attiva la Vision Mode: ora puoi caricare immagini (beta)

DeepSeek ha rilasciato in beta la modalità DeepSeek Vision nella chat ufficiale. Puoi caricare immagini e il modello le analizza, descrive, fa OCR e risponde a domande sul contenuto visivo. Al momento è disponibile solo su web e app — il supporto API non è ancora documentato ufficialmente.
Il lancio
Il 23 giugno 2026 DeepSeek ha attivato la Vision Mode in beta su chat.deepseek.com e sull'app mobile. La nuova modalità appare come opzione accanto alle classiche "DeepSeek" e "R1" (ora V4 Pro/Flash), permettendo di caricare immagini e porre domande sul loro contenuto.
TestingCatalog ha confermato il rollout su X, e gli utenti su Reddit stanno già condividendo le prime impressioni.
Cosa fa
La modalità Vision è pensata per task di image understanding:
- Descrizione dettagliata di immagini e foto
- OCR — riconoscimento testo in screenshot, documenti, tabelle
- Q&A visivo — domande specifiche su elementi nell'immagine
- Analisi di grafici e diagrammi
- Riconoscimento di layout e struttura visiva
Nei test degli utenti, il modello riesce a elencare correttamente tutti i dettagli di un'immagine con buona accuratezza.
Supporto API: non documentato
Al momento la documentazione ufficiale dell'API DeepSeek non elenca il supporto per input di immagini. I modelli deepseek-v4-pro e deepseek-v4-flash nella pagina prezzi riportano solo funzionalità testuali: tool calls, JSON output, FIM e prefix completion. Nessun riferimento a image_url o parametri multimodali nell'endpoint /chat/completions. Questo non significa che il supporto sia tecnicamente assente — DeepSeek potrebbe averlo abilitato senza aggiornare la documentazione — ma al momento non ci sono comunicazioni ufficiali in merito.
DeepSeek non ha ancora comunicato una roadmap pubblica per il supporto API della Vision Mode. Considerando che la beta in chat è appena partita, è probabile che l'API arrivi in un secondo momento — come già successo con GPT-4V e Claude Vision.
Come usarla oggi
- Vai su chat.deepseek.com
- Seleziona la modalità Vision dal selettore in alto (il rollout è graduale: se non la vedi, potrebbe non essere ancora attiva per il tuo account)
- Carica un'immagine o incolla uno screenshot
- Fai domande in linguaggio naturale sul contenuto
È completamente gratuita, come tutta DeepSeek Chat.
Cosa sappiamo dell'architettura
TechNode aveva anticipato ad aprile 2026 che DeepSeek stava testando una variante "V4 Vision" con capacità multimodali. Secondo un'analisi di MindStudio, il modello Vision di DeepSeek userebbe circa 90 KV cache entries per immagine, contro le ~870 di Claude — un'efficienza quasi 10x. Se confermato, questo spiegherebbe perché DeepSeek può offrire la Vision Mode gratuitamente.
Privacy
DeepSeek memorizza i dati su server in Cina. Per la Vision Mode in beta valgono le stesse precauzioni di sempre: non caricare immagini con dati sensibili, documenti riservati o informazioni personali.
Cosa aspettarsi
La Vision Mode in chat è un primo passo. Se DeepSeek seguirà il pattern di altri provider, il supporto API arriverà dopo la fase beta. Per chi sviluppa applicazioni che richiedono analisi di immagini, le alternative oggi restano GPT-4V/GPT-5 o Claude Vision via API. Ma se DeepSeek porta la stessa efficienza della chat anche sull'API, con i suoi prezzi (Flash a $0.14/$0.28 per milione di token), potrebbe diventare l'opzione più economica per image understanding su larga scala.
Fonti: TestingCatalog su X · TechNode · MindStudio · DeepSeek API Docs
DeepSeek è già il punto di riferimento per il rapporto qualità-prezzo nel coding. Con la Vision Mode può fare lo stesso per l'image understanding. Voi l'avete già provata? Come si comporta rispetto a GPT-4V o Claude Vision per i vostri casi d'uso?
📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

Scritto da
Michael Gasperini@TheStreamCode
Founder & Sviluppatore
Founder di Vibecoding Italia, la community italiana sull'intelligenza artificiale. Progetta e sviluppa prodotti con l'AI e ne racconta l'applicazione pratica attraverso guide e articoli.

