Qwen3.7-Plus: Alibaba spinge sugli agenti multimodali con GUI, browser e screen understanding

Alibaba ha pubblicato Qwen3.7-Plus, un nuovo modello proprietario pensato per agenti multimodali: testo, immagini, video, GUI, coding e tool use nello stesso loop agentivo. La novità non è solo "un modello più forte sui benchmark", ma un posizionamento preciso: mentre Qwen3.7-Max è orientato ad agenti long-horizon e coding pesante, Qwen3.7-Plus punta su interfacce visuali, browser e app automation, screen understanding e generazione di codice da riferimenti visivi.
Cosa dichiara Qwen
Dal blog ufficiale, le caratteristiche principali:
- modello disponibile via Alibaba Cloud Model Studio;
- model ID API:
qwen3.7-plus; - input testuali e immagini/video;
- endpoint compatibile OpenAI tramite DashScope;
- supporto ai parametri
enable_thinkingepreserve_thinking, quest'ultimo consigliato da Qwen per task agentici; - integrazione dichiarata con Claude Code, OpenClaw e Qwen Code.
Il punto tecnico centrale è il modello "ibrido" GUI + CLI: l'agente può leggere una schermata, ragionare sul contenuto, operare una GUI, scrivere codice, lanciare test e correggersi usando il feedback dell'ambiente. Non è semplice VQA o OCR, ma un tentativo di portare il modello dentro un ciclo completo see → think → write → act → verify.
Numeri da guardare, con cautela
Tutti i benchmark sono dichiarati da Qwen e vanno presi come dati di lancio, non come validazione indipendente.
Su task testuali e coding, rispetto a Qwen3.6-Plus:
- Terminal Bench 2.0-Terminus: 70,3 vs 61,6
- NL2repo: 41,1 vs 34,4
- SciCode: 51,3 vs 41,4
- MRCR-v2 128k: 91,7 vs 85,9
C'è però un caveat importante: su SWE-Verified, benchmark standard per coding agent su repository reali, Qwen3.7-Plus si ferma a 77,7, sotto Qwen3.6-Plus (78,8) e sotto Qwen3.7-Max (80,4). Plus non è quindi la scelta automatica per un puro coding agent su repository tradizionali.
Dove il salto è più coerente e significativo è sul multimodale e GUI:
- ScreenSpot Pro: 79,0 vs 68,2
- OSWorld-Verified: 73,3 vs 62,5
- AndroidWorld: 81,0 vs 67,2
- QwenVision2Code: 1772 vs 1522
- SimpleVQA: 81,7 vs 69,4
Il confronto con Qwen3.6-Plus è chiaro: il focus è sull'uso operativo di interfacce e contenuti visuali, non sul ragionamento testuale puro.
Le demo: ambiziose, ma curate dal vendor
Qwen cita due demo rappresentative:
- Un agente che lavora per oltre 11 ore su un'app di vocabolario inglese, generando più di 10.000 righe di codice e oltre 1.000 agent call tra requisiti, coding, deploy, test GUI, documentazione e iterazioni.
- Una replica ad alta fedeltà dell'app macOS Stocks in SwiftUI, con dati reali via LongBridge API e 10 test funzionali dichiarati come superati.
Sono esempi utili per capire la direzione: agenti che non lavorano solo su file e terminale, ma anche su schermate, browser, app native e flussi visivi. Restano però demo curate dal produttore. La domanda reale è quanto reggano su workflow sporchi: UI instabili, autenticazione, dati aziendali, errori non deterministici, rate limit, tool che cambiano output.
Come provarlo
Secondo il blog ufficiale, si accede tramite Alibaba Cloud Model Studio con una DASHSCOPE_API_KEY e un base URL compatibile OpenAI:
- Singapore:
https://dashscope-intl.aliyuncs.com/compatible-mode/v1 - US Virginia:
https://dashscope-us.aliyuncs.com/compatible-mode/v1 - Beijing:
https://dashscope.aliyuncs.com/compatible-mode/v1
Lo stesso SDK OpenAI, model="qwen3.7-plus", più extra_body={"enable_thinking": true} se si vuole attivare la modalità reasoning.
Prima di un uso serio conviene verificare nella console Model Studio prezzi, regioni, data policy e limiti effettivi: la documentazione generale dei modelli può restare indietro rispetto al blog di lancio.
Fonti
- Qwen3.7-Plus: Multimodal Agent Intelligence — Qwen, 1 giugno 2026
- Qwen3.7: The Agent Frontier — Qwen, 20 maggio 2026
- Alibaba Cloud Model Studio — piattaforma API ufficiale
- Alibaba Cloud Model Studio: text generation docs — API compatibile OpenAI, regioni e chiavi API
Voi lo avete già testato per task visuali tipo screenshot-to-code, browser automation o QA su interfacce? Quanto regge su workflow reali fuori dal laboratorio?
📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.


