El 9 de junio, Cohere liberó North Mini Code bajo licencia Apache 2.0, con los pesos en Hugging Face. Es el primer modelo de la empresa apuntado de lleno a developers — y el pitch no es “le ganamos a GPT”. Es algo más interesante para cualquiera que alguna vez dudó antes de pegar un repo privado en una API hosteada: un coding agent agéntico capaz, lo suficientemente chico como para correr en hardware que vos controlás.
Qué es, en concreto
North Mini Code es un modelo Mixture-of-Experts: 30B de parámetros totales, pero solo 3B activos por token. Esa relación es toda la historia. Tenés la capacidad representacional de un modelo mediano con un costo de inferencia más cercano al de uno chico — que es exactamente lo que hace que el self-hosting sea realista en lugar de aspiracional.
Cohere lo construyó específicamente para ingeniería de software agéntica, no para chat general: orquestar sub-agents, mapear arquitectura desconocida, hacer code review y trabajar en la terminal. Es el primer modelo de lo que Cohere llama una nueva familia, y el framing de todo el lanzamiento es desarrollo “sovereign” — mantener tu código en infraestructura propia en vez de mandarlo al endpoint de otro.
Los números, framing honesto
Cohere reporta 80.2% pass@10 en SWE-Bench Verified para el modelo fine-tuneado, y 61.0% pass@1 a través del harness mini-SWE-Agent. Son cifras sólidas para un modelo de este tamaño.
El claim de portada — que le gana a rivales open-source de varias veces su tamaño — es real pero conviene precisarlo. Sale del Coding Index de Artificial Analysis, donde North Mini Code obtiene 33.4, por encima de modelos como Devstral 2 (123B) y Nemotron 3 Super (120B-A12B). Así que la historia de “pega por encima de su categoría” es específica de ese benchmark, no un claim transversal a todas las evals. Sigue siendo un resultado fuerte: un modelo de 30B superando cosas cinco veces más grandes en un índice de terceros respetado es el tipo de eficiencia que cambia la matemática del deployment.
Algo que Cohere remarca y que es fácil pasar por alto: lo entrenaron a través de múltiples harnesses agénticos en vez de optimizar para uno solo. Eso importa en la práctica — un modelo que solo rinde bien dentro del scaffold exacto en el que fue tuneado tiende a desarmarse apenas le cambiás el tooling. North Mini Code está pensado para aguantar a través de SWE-Agent, mini-SWE-Agent y OpenCode, que es la diferencia entre un trofeo de benchmark y algo sobre lo que realmente podés construir un agente.
Por qué le importa a tu equipo
El gancho real no es la posición en el leaderboard. Es que un coding agent agéntico, open-weight y Apache 2.0 de este tamaño vuelve viable una opción concreta: correr tu agente en tu propio hardware, donde tu código fuente nunca sale del edificio.
Para muchos equipos eso no es un lujo. Industrias reguladas, trabajo para clientes bajo NDA, codebases internas que legal preferiría no ver pasando por una API de terceros — todos vivieron con una tensión real entre querer tooling agéntico y no tener permitido usar las versiones hosteadas. Un modelo que podés bajar y servir vos mismo disuelve esa tensión, al menos en principio.
El ángulo del costo también es parte. Cohere es explícito en apuntar a un total cost of ownership más bajo, y el diseño MoE lo respalda: no estás pagando por activar 30B de parámetros en cada token. Para equipos que corren agentes a volumen, la diferencia entre una factura de API por token e inferencia self-hosted en hardware propio se acumula rápido.
Dónde conseguirlo
Los pesos están en Hugging Face bajo Apache 2.0. Si preferís no correrlo vos mismo, Cohere también lo ofrece vía su API, vía Model Vault (su opción de inferencia dedicada y gestionada), y podés probarlo en harnesses como OpenCode.
La salvedad honesta: self-hostear un modelo nunca es solo “bajar y listo” — necesitás la infraestructura y la voluntad de operarla. Pero por primera vez, el modelo en sí no es el cuello de botella. Ese es el cambio que vale la pena mirar.
