Qwen3.7-Plus: Alibaba spinge sugli agenti multimodali con GUI, browser e screen understanding

Alibaba ha pubblicato Qwen3.7-Plus, un nuovo modello proprietario pensato per agenti multimodali: testo, immagini, video, GUI, coding e tool use nello stesso loop agentivo. La novità non è solo "un modello più forte sui benchmark", ma un posizionamento preciso: mentre Qwen3.7-Max è orientato ad agenti long-horizon e coding pesante, Qwen3.7-Plus punta su interfacce visuali, browser e app automation, screen understanding e generazione di codice da riferimenti visivi.

Cosa dichiara Qwen

Dal blog ufficiale, le caratteristiche principali:

modello disponibile via Alibaba Cloud Model Studio;
model ID API: qwen3.7-plus;
input testuali e immagini/video;
endpoint compatibile OpenAI tramite DashScope;
supporto ai parametri enable_thinking e preserve_thinking, quest'ultimo consigliato da Qwen per task agentici;
integrazione dichiarata con Claude Code, OpenClaw e Qwen Code.

Il punto tecnico centrale è il modello "ibrido" GUI + CLI: l'agente può leggere una schermata, ragionare sul contenuto, operare una GUI, scrivere codice, lanciare test e correggersi usando il feedback dell'ambiente. Non è semplice VQA o OCR, ma un tentativo di portare il modello dentro un ciclo completo see → think → write → act → verify.

Numeri da guardare, con cautela

Tutti i benchmark sono dichiarati da Qwen e vanno presi come dati di lancio, non come validazione indipendente.

Su task testuali e coding, rispetto a Qwen3.6-Plus:

Terminal Bench 2.0-Terminus: 70,3 vs 61,6
NL2repo: 41,1 vs 34,4
SciCode: 51,3 vs 41,4
MRCR-v2 128k: 91,7 vs 85,9

C'è però un caveat importante: su SWE-Verified, benchmark standard per coding agent su repository reali, Qwen3.7-Plus si ferma a 77,7, sotto Qwen3.6-Plus (78,8) e sotto Qwen3.7-Max (80,4). Plus non è quindi la scelta automatica per un puro coding agent su repository tradizionali.

Dove il salto è più coerente e significativo è sul multimodale e GUI:

ScreenSpot Pro: 79,0 vs 68,2
OSWorld-Verified: 73,3 vs 62,5
AndroidWorld: 81,0 vs 67,2
QwenVision2Code: 1772 vs 1522
SimpleVQA: 81,7 vs 69,4

Il confronto con Qwen3.6-Plus è chiaro: il focus è sull'uso operativo di interfacce e contenuti visuali, non sul ragionamento testuale puro.

Le demo: ambiziose, ma curate dal vendor

Qwen cita due demo rappresentative:

Un agente che lavora per oltre 11 ore su un'app di vocabolario inglese, generando più di 10.000 righe di codice e oltre 1.000 agent call tra requisiti, coding, deploy, test GUI, documentazione e iterazioni.
Una replica ad alta fedeltà dell'app macOS Stocks in SwiftUI, con dati reali via LongBridge API e 10 test funzionali dichiarati come superati.

Sono esempi utili per capire la direzione: agenti che non lavorano solo su file e terminale, ma anche su schermate, browser, app native e flussi visivi. Restano però demo curate dal produttore. La domanda reale è quanto reggano su workflow sporchi: UI instabili, autenticazione, dati aziendali, errori non deterministici, rate limit, tool che cambiano output.

Come provarlo

Secondo il blog ufficiale, si accede tramite Alibaba Cloud Model Studio con una DASHSCOPE_API_KEY e un base URL compatibile OpenAI:

Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
US Virginia: https://dashscope-us.aliyuncs.com/compatible-mode/v1
Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1

Lo stesso SDK OpenAI, model="qwen3.7-plus", più extra_body={"enable_thinking": true} se si vuole attivare la modalità reasoning.

Prima di un uso serio conviene verificare nella console Model Studio prezzi, regioni, data policy e limiti effettivi: la documentazione generale dei modelli può restare indietro rispetto al blog di lancio.

Fonti

Qwen3.7-Plus: Multimodal Agent Intelligence — Qwen, 1 giugno 2026
Qwen3.7: The Agent Frontier — Qwen, 20 maggio 2026
Alibaba Cloud Model Studio — piattaforma API ufficiale
Alibaba Cloud Model Studio: text generation docs — API compatibile OpenAI, regioni e chiavi API

Voi lo avete già testato per task visuali tipo screenshot-to-code, browser automation o QA su interfacce? Quanto regge su workflow reali fuori dal laboratorio?

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

Cosa dichiara Qwen

Dal blog ufficiale, le caratteristiche principali:

modello disponibile via Alibaba Cloud Model Studio;
model ID API: qwen3.7-plus;
input testuali e immagini/video;
endpoint compatibile OpenAI tramite DashScope;
supporto ai parametri enable_thinking e preserve_thinking, quest'ultimo consigliato da Qwen per task agentici;
integrazione dichiarata con Claude Code, OpenClaw e Qwen Code.

Numeri da guardare, con cautela

Tutti i benchmark sono dichiarati da Qwen e vanno presi come dati di lancio, non come validazione indipendente.

Su task testuali e coding, rispetto a Qwen3.6-Plus:

Terminal Bench 2.0-Terminus: 70,3 vs 61,6
NL2repo: 41,1 vs 34,4
SciCode: 51,3 vs 41,4
MRCR-v2 128k: 91,7 vs 85,9

Dove il salto è più coerente e significativo è sul multimodale e GUI:

ScreenSpot Pro: 79,0 vs 68,2
OSWorld-Verified: 73,3 vs 62,5
AndroidWorld: 81,0 vs 67,2
QwenVision2Code: 1772 vs 1522
SimpleVQA: 81,7 vs 69,4

Il confronto con Qwen3.6-Plus è chiaro: il focus è sull'uso operativo di interfacce e contenuti visuali, non sul ragionamento testuale puro.

Le demo: ambiziose, ma curate dal vendor

Qwen cita due demo rappresentative:

Un agente che lavora per oltre 11 ore su un'app di vocabolario inglese, generando più di 10.000 righe di codice e oltre 1.000 agent call tra requisiti, coding, deploy, test GUI, documentazione e iterazioni.
Una replica ad alta fedeltà dell'app macOS Stocks in SwiftUI, con dati reali via LongBridge API e 10 test funzionali dichiarati come superati.

Come provarlo

Secondo il blog ufficiale, si accede tramite Alibaba Cloud Model Studio con una DASHSCOPE_API_KEY e un base URL compatibile OpenAI:

Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
US Virginia: https://dashscope-us.aliyuncs.com/compatible-mode/v1
Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1

Lo stesso SDK OpenAI, model="qwen3.7-plus", più extra_body={"enable_thinking": true} se si vuole attivare la modalità reasoning.

Fonti

Qwen3.7-Plus: Multimodal Agent Intelligence — Qwen, 1 giugno 2026
Qwen3.7: The Agent Frontier — Qwen, 20 maggio 2026
Alibaba Cloud Model Studio — piattaforma API ufficiale
Alibaba Cloud Model Studio: text generation docs — API compatibile OpenAI, regioni e chiavi API

Voi lo avete già testato per task visuali tipo screenshot-to-code, browser automation o QA su interfacce? Quanto regge su workflow reali fuori dal laboratorio?

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

Qwen3.7-Plus: Alibaba spinge sugli agenti multimodali con GUI, browser e screen understanding

Cosa dichiara Qwen

Numeri da guardare, con cautela

Le demo: ambiziose, ma curate dal vendor

Come provarlo

Fonti

Michael Gasperini@TheStreamCode

Qoder alza il tetto: dentro Cantus e Qwen3.8-Max

Sonnet 5 + Fable 5 Advisor: uno dei sistemi più efficaci mai introdotti in una coding CLI

Kimi Code CLI: coding agent open source con supporto multi-provider

Qwen3.7-Plus: Alibaba spinge sugli agenti multimodali con GUI, browser e screen understanding

Cosa dichiara Qwen

Numeri da guardare, con cautela

Le demo: ambiziose, ma curate dal vendor

Come provarlo

Fonti

Michael Gasperini@TheStreamCode

Qoder alza il tetto: dentro Cantus e Qwen3.8-Max

Sonnet 5 + Fable 5 Advisor: uno dei sistemi più efficaci mai introdotti in una coding CLI

Kimi Code CLI: coding agent open source con supporto multi-provider