Kimi K2.7 Code: il nuovo modello coding open-weight di Moonshot AI con meno token di thinking

Moonshot AI ha rilasciato Kimi K2.7 Code, il suo modello specializzato per il coding agentic basato su K2.6. Il punto distintivo rispetto al predecessore non è tanto la capacità bruta quanto l'efficienza: K2.7 Code riduce i thinking token del 30%, con un impatto diretto sui costi per task agentic lunghi e multi-step.
Il modello è disponibile via API su platform.kimi.ai, accessibile tramite kimi.com/code e scaricabile come open-weight su HuggingFace con licenza Modified MIT (uso commerciale permesso con attribuzione).
Il problema che risolve rispetto a K2.6
K2.6 era competitivo a livello di qualità, ma consumava molti più token rispetto ad altri modelli per lo stesso task. Il risultato era un costo per task paragonabile a quello dei modelli closed-source di frontiera, annullando di fatto il vantaggio economico del modello.
K2.7 Code affronta direttamente questo punto: thinking mode forzato con riduzione del 30% nei thinking token, che dovrebbe tradursi in costi significativamente inferiori soprattutto per workflow agentic lunghi.
Specifiche tecniche
- Architettura MoE: 1T parametri totali, 32B attivi per forward pass
- 384 esperti, 8 selezionati per token
- Context window: 256K token
- Thinking mode forzato (non disattivabile), con riduzione del 30% dei thinking token rispetto a K2.6
- Supporto a tool calling, preserve thinking e interleaved thinking
- Compatibile con OpenAI SDK: base URL
api.moonshot.ai/v1, model idkimi-k2.7-code - 6x High-Speed Mode annunciato ma non ancora disponibile al lancio
Benchmark
I benchmark seguenti sono riportati da Moonshot AI — utili come segnale, ma non come misura indipendente:
| Benchmark | K2.6 | K2.7 Code | GPT-5.5 | Claude Opus 4.8 |
|---|---|---|---|---|
| Kimi Code Bench v2 | 50.9 | 62.0 (+21.8%) | 69.0 | 67.4 |
| Program Bench | 48.3 | 53.6 | 69.1 | 63.8 |
| MLS Bench Lite | 26.7 | 35.1 (+31.5%) | 35.5 | 42.8 |
Il modello si avvicina ai top closed-source ma non li raggiunge nella maggior parte dei benchmark coding. La community lo posiziona come competitivo contro GLM 5.1, MiniMax M3 e Qwen 3.7 per task di coding.
Limitazioni da tenere presenti
- Parametri API rigidi: temperatura fissa a 1.0, top_p 0.95, thinking non disattivabile. Deviare da questi valori causa errore.
- Il pricing specifico di K2.7 Code non è ancora confermato ufficialmente (K2.6 è $0.95/$4.00 per milione di token input/output).
- Multimodale: le immagini funzionano via API ufficiale e self-hosting; il video è supportato solo via API ufficiale (feature sperimentale, non disponibile con vLLM/SGLang).
- Non supporta instant mode: solo thinking mode.
- Nelle prime ore dal lancio alcuni utenti hanno riportato errori sporadici ("No output generated").
Per chi ha senso provarlo
Per chi lavora su coding agentic o task multi-step lunghi, il rapporto capacità/costo dovrebbe essere migliore rispetto a K2.6, proprio grazie alla riduzione dei token di thinking. Il vantaggio cresce ulteriormente se si può fare self-hosting con i pesi open-weight, eliminando i costi API.
Fonti:
Voi lo avete già provato su progetti reali? Come si comporta rispetto agli altri modelli open-weight per coding?
📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.


