Moonshot abre los pesos de un modelo de 1 billón de parámetros

Vi un montón de lanzamientos “open” que terminan siendo abiertos solo de nombre: una licencia de investigación, una descarga con gate, pesos que aparecen tres semanas después del ciclo de prensa. Así que cuando Moonshot AI lanzó Kimi K2.7-Code el 12 de junio, mi primera pregunta no fue sobre los benchmarks. Fue: ¿lo puedo descargar hoy, y cuánto cuesta correrlo? La respuesta a ambas es la verdadera historia acá, y es más interesante que cualquier fila de un leaderboard.

Arranquemos por lo verificable. K2.7-Code es un modelo Mixture-of-Experts: 1 billón de parámetros totales, 32B activos por token, 384 experts (8 seleccionados, 1 compartido), una ventana de contexto de 256K tokens. Los pesos completos subieron a Hugging Face el día del lanzamiento bajo una licencia Modified MIT — del tipo permisivo, que habilita uso comercial con atribución, no una correa de research-only. Lo podés self-hostear con vLLM, SGLang o KTransformers. Viene con cuantización INT4 nativa, y el repo pesa alrededor de 595 GB en disco. Seamos claros: eso es un deployment server-class, no algo que corras en tu laptop. Pero es tuyo para correrlo.

Esa licencia y esa postura de descargable-hoy son el punto central, y vale la pena detenerse en eso. Para cualquier equipo que opere con restricciones de data-residency — y eso incluye a un montón de shops reguladas en Iberoamérica — la diferencia entre “solo API, hosteada en EE.UU.” y “pesos que podés deployar en tu propia infraestructura” no es un nice-to-have. Es la línea entre una herramienta que podés adoptar y una que tu equipo de compliance veta. K2.7-Code cae del lado correcto de esa línea.

Ahora la economía. Moonshot lista la API en $0.95 por millón de tokens de input y $4.00 por millón de tokens de output (el input cacheado baja a $0.19). Eso es aproximadamente una décima parte de lo que cobran los modelos frontier cerrados. Y hay un efecto de segundo orden que importa más que el precio de lista: Moonshot reporta que el modelo usa cerca de 30% menos reasoning tokens que su predecesor, K2.6 — lo que ellos enmarcan como “menos sobrepensar”. Como los reasoning tokens se facturan como output en la mayoría de los price cards, y el coding agéntico corre cientos o miles de steps por tarea — cada plan, retry y verificación pagando de nuevo el costo de pensar — un recorte de 30% compone fuerte a lo largo de una corrida larga. Más barato por token y menos tokens por tarea. Esa es la combinación que de verdad mueve una factura mensual.

Sobre los benchmarks voy a ser directo: son los números propios de Moonshot. La empresa publicó una tabla de seis filas comparando a K2.7-Code contra K2.6, GPT-5.5 y Claude Opus 4.8 — y, naturalmente, K2.7-Code gana en todas las filas contra su propio predecesor, con el titular siendo un salto de 50.9 a 62.0 en Kimi Code Bench v2 (el +21.8% de los titulares). Contra el frontier cerrado es más honesto sobre la brecha: queda por detrás de GPT-5.5 y Opus 4.8 en la mayoría de las filas, aunque le saca ventaja a Opus en MCP Mark Verified (81.1 vs 76.4). Vale la pena notar que las condiciones de testeo no fueron simétricas — K2.7-Code corrió en el CLI propio de Kimi, los competidores en los suyos. Tomá la tabla como el autorreporte de un vendor, no como un leaderboard independiente. La arquitectura, la licencia y el pricing son los hechos sobre los que yo basaría una decisión.

También hay una jugada de plataforma debajo del release del modelo que no creo que sea incidental. K2.7-Code se lanza emparejado con Kimi Code, el agente de coding terminal-first de Moonshot, con planes de membresía listados desde $19/mes. Así que Moonshot compite en todo el stack a la vez — modelo, CLI y economía de suscripción — la misma apuesta de integración vertical que hicieron los players cerrados, salvo que con los pesos abiertos por debajo. Esa es una estrategia más afilada que “acá tenés un modelo, buena suerte”, y es la parte de este lanzamiento que estaría mirando en los próximos meses.

Si sos CTO sopesando tu stack de coding con IA, el takeaway no es “cambiate a Kimi”. Es que el piso recién se movió. Ahora existe un modelo agéntico open-weight, self-hosteable y frontier-adjacent a aproximadamente una décima parte del costo de API de los modelos cerrados, con una licencia con la que tus abogados pueden vivir. Incluso si nunca lo deployás, eso es leverage en cada conversación de proveedor que tengas este año. La provider freedom dejó de ser teórica.

¿Estás evaluando modelos open-weight para tu stack de coding, o el costo de self-hosting todavía no cierra frente a las APIs cerradas? Contanos cómo lo estás midiendo.