Kimi K2.7 Code: il nuovo modello coding open-weight di Moonshot AI con meno token di thinking

Moonshot AI ha rilasciato Kimi K2.7 Code, il suo modello specializzato per il coding agentic basato su K2.6. Il punto distintivo rispetto al predecessore non è tanto la capacità bruta quanto l'efficienza: K2.7 Code riduce i thinking token del 30%, con un impatto diretto sui costi per task agentic lunghi e multi-step.

Il modello è disponibile via API su platform.kimi.ai, accessibile tramite kimi.com/code e scaricabile come open-weight su HuggingFace con licenza Modified MIT (uso commerciale permesso con attribuzione).

Il problema che risolve rispetto a K2.6

K2.6 era competitivo a livello di qualità, ma consumava molti più token rispetto ad altri modelli per lo stesso task. Il risultato era un costo per task paragonabile a quello dei modelli closed-source di frontiera, annullando di fatto il vantaggio economico del modello.

K2.7 Code affronta direttamente questo punto: thinking mode forzato con riduzione del 30% nei thinking token, che dovrebbe tradursi in costi significativamente inferiori soprattutto per workflow agentic lunghi.

Specifiche tecniche

Architettura MoE: 1T parametri totali, 32B attivi per forward pass
384 esperti, 8 selezionati per token
Context window: 256K token
Thinking mode forzato (non disattivabile), con riduzione del 30% dei thinking token rispetto a K2.6
Supporto a tool calling, preserve thinking e interleaved thinking
Compatibile con OpenAI SDK: base URL api.moonshot.ai/v1, model id kimi-k2.7-code
6x High-Speed Mode annunciato ma non ancora disponibile al lancio

Benchmark

I benchmark seguenti sono riportati da Moonshot AI — utili come segnale, ma non come misura indipendente:

| Benchmark | K2.6 | K2.7 Code | GPT-5.5 | Claude Opus 4.8 |
|---|---|---|---|---|
| Kimi Code Bench v2 | 50.9 | 62.0 (+21.8%) | 69.0 | 67.4 |
| Program Bench | 48.3 | 53.6 | 69.1 | 63.8 |
| MLS Bench Lite | 26.7 | 35.1 (+31.5%) | 35.5 | 42.8 |

Il modello si avvicina ai top closed-source ma non li raggiunge nella maggior parte dei benchmark coding. La community lo posiziona come competitivo contro GLM 5.1, MiniMax M3 e Qwen 3.7 per task di coding.

Limitazioni da tenere presenti

Parametri API rigidi: temperatura fissa a 1.0, top_p 0.95, thinking non disattivabile. Deviare da questi valori causa errore.
Il pricing specifico di K2.7 Code non è ancora confermato ufficialmente (K2.6 è $0.95/$4.00 per milione di token input/output).
Multimodale: le immagini funzionano via API ufficiale e self-hosting; il video è supportato solo via API ufficiale (feature sperimentale, non disponibile con vLLM/SGLang).
Non supporta instant mode: solo thinking mode.
Nelle prime ore dal lancio alcuni utenti hanno riportato errori sporadici ("No output generated").

Per chi ha senso provarlo

Per chi lavora su coding agentic o task multi-step lunghi, il rapporto capacità/costo dovrebbe essere migliore rispetto a K2.6, proprio grazie alla riduzione dei token di thinking. Il vantaggio cresce ulteriormente se si può fare self-hosting con i pesi open-weight, eliminando i costi API.

Fonti:

Voi lo avete già provato su progetti reali? Come si comporta rispetto agli altri modelli open-weight per coding?

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

Il problema che risolve rispetto a K2.6

Specifiche tecniche

Architettura MoE: 1T parametri totali, 32B attivi per forward pass

384 esperti, 8 selezionati per token

Context window: 256K token

Thinking mode forzato (non disattivabile), con riduzione del 30% dei thinking token rispetto a K2.6

Supporto a tool calling, preserve thinking e interleaved thinking

Compatibile con OpenAI SDK: base URL api.moonshot.ai/v1, model id kimi-k2.7-code

6x High-Speed Mode annunciato ma non ancora disponibile al lancio

Benchmark

I benchmark seguenti sono riportati da Moonshot AI — utili come segnale, ma non come misura indipendente:

Limitazioni da tenere presenti

Parametri API rigidi: temperatura fissa a 1.0, top_p 0.95, thinking non disattivabile. Deviare da questi valori causa errore.

Il pricing specifico di K2.7 Code non è ancora confermato ufficialmente (K2.6 è $0.95/$4.00 per milione di token input/output).

Multimodale: le immagini funzionano via API ufficiale e self-hosting; il video è supportato solo via API ufficiale (feature sperimentale, non disponibile con vLLM/SGLang).

Non supporta instant mode: solo thinking mode.

Nelle prime ore dal lancio alcuni utenti hanno riportato errori sporadici ("No output generated").

Per chi ha senso provarlo

Fonti:

Voi lo avete già provato su progetti reali? Come si comporta rispetto agli altri modelli open-weight per coding?

📌 Questo articolo riassume una discussione su r/vibecodingitalia. Leggi il post originale.

Kimi K2.7 Code: il nuovo modello coding open-weight di Moonshot AI con meno token di thinking

Il problema che risolve rispetto a K2.6

Specifiche tecniche

Benchmark

Limitazioni da tenere presenti

Per chi ha senso provarlo

Michael Gasperini@TheStreamCode

Claude Opus 5 è disponibile: vicino a Fable 5, metà del prezzo

Il Token Plan di Alibaba e la preview di Qwen 3.8 Max

Qoder alza il tetto: dentro Cantus e Qwen3.8-Max

Kimi K2.7 Code: il nuovo modello coding open-weight di Moonshot AI con meno token di thinking

Il problema che risolve rispetto a K2.6

Specifiche tecniche

Benchmark

Limitazioni da tenere presenti

Per chi ha senso provarlo

Michael Gasperini@TheStreamCode

Claude Opus 5 è disponibile: vicino a Fable 5, metà del prezzo

Il Token Plan di Alibaba e la preview di Qwen 3.8 Max

Qoder alza il tetto: dentro Cantus e Qwen3.8-Max