Composer 2.5: Por Qué el Harness Importa Más que el Modelo

Hay un dato enterrado en un benchmark de seguridad reciente de Endor Labs que debería cambiar cómo evaluás las herramientas de coding con IA — y la mayoría de la cobertura de Composer 2.5 lo está pasando por alto.

Mismo modelo. Misma semana. Distinto runtime. GPT-5.5 sacó 61.5% en funcionalidad corriendo dentro del harness nativo de OpenAI Codex. Poné ese mismo modelo dentro del harness de Cursor y el número salta a 87.2%. Son 26 puntos de diferencia sin tocar el modelo. Los números de seguridad cuentan la misma historia: GPT-5.5 en el harness de Cursor llegó a 23.5%. Claude Opus 4.7 en el harness de Cursor llegó a 22.9%. Ambos superaron lo que cualquiera de los dos modelos logró en su propio entorno nativo.

Ese dato es el contexto real para entender Composer 2.5 — lanzado el 18 de mayo de 2026.

Qué es Composer 2.5, en concreto

El modelo propio de Cursor está construido sobre la misma base open source que Composer 2: Kimi K2.5 de Moonshot AI, una arquitectura mixture-of-experts con aproximadamente 1 trillón de parámetros totales y ~32 mil millones activos por inferencia. La base no cambió. Lo que cambió fue todo lo que se construyó encima.

El 85% del presupuesto total de cómputo fue al pipeline propio de post-training de Cursor: 25 veces más tareas sintéticas de entrenamiento que Composer 2, una nueva técnica de reinforcement learning que le da al modelo feedback textual localizado en el momento exacto en que hace un mal tool call (en lugar de una única señal de recompensa al final de una ejecución larga), y mejoras de infraestructura que incluyen optimizadores Muon fragmentados para entrenamiento a escala MoE.

Los resultados en benchmarks:

  • SWE-Bench Multilingual: 79.8% (subió desde 73.7% en Composer 2)
  • Terminal-Bench 2.0: 69.3% (subió desde 61.7%), prácticamente igualando a Opus 4.7 con 69.4%
  • CursorBench v3.1 en esfuerzo por defecto: 63.2% — por delante de Opus 4.7 (61.6%) y GPT-5.5 (59.2%)

Precios: $0.50/M tokens de entrada y $2.50/M de salida en el tier estándar. El tier fast (por defecto para uso interactivo) es $3.00/$15.00. A aproximadamente una décima del costo de los modelos frontier en tareas comparables, la economía de las sesiones largas de agentes cambia de manera fundamental.

La tesis que los benchmarks no capturan

Cursor es transparente en algo en el post de lanzamiento: las dimensiones conductuales que más le importan a los desarrolladores que trabajan día a día — calibración del esfuerzo, estilo de comunicación, saber cuándo parar y preguntar versus cuándo seguir adelante — no están bien capturadas por los benchmarks existentes. Las construyeron y entrenaron igualmente.

Acá es donde dos años de inversión en producto se hacen visibles. La capa de retrieval, los patrones de tool calling, la forma en que el contexto se gestiona a lo largo de un refactor de 200 archivos, las señales que usa el agente para decidir si un test fallido es ruido o un problema real — nada de eso vive en los pesos del modelo. Vive en el scaffolding que Cursor lleva construyendo desde 2023.

Los datos de Endor Labs son la validación externa más clara de esta tesis que he visto. El harness es el producto. El modelo es un componente del harness.

Qué significa esto para equipos que están evaluando herramientas

Si tomás decisiones de tooling basándote en qué lab de fundación está lanzando el modelo más hot este mes, estás optimizando la variable equivocada. Cursor no está ganando porque tenga un mejor modelo base — están corriendo Kimi K2.5, el mismo checkpoint open source que cualquiera puede descargar. Están ganando porque construyeron el mejor runtime de agente de ingeniería de software del mercado, y lo siguen mejorando de manera independiente de lo que lancen los labs de fundación.

Dos implicaciones prácticas:

Primero, el argumento de costo para Cursor ahora es legítimo a escala. La inferencia de modelos frontier en sesiones agénticas largas es genuinamente cara. A precios del tier estándar, Composer 2.5 cambia la matemática sobre cuántas sesiones de agentes en paralelo puede correr un equipo, y con qué frecuencia.

Segundo, Cursor anunció que está entrenando un modelo significativamente más grande desde cero con SpaceXAI — en Colossus 2, con 10 veces más cómputo que Composer 2.5. Ese modelo no tiene fecha de lanzamiento. Pero la implicación es clara: Cursor no se está posicionando como un IDE que envuelve modelos ajenos. Están construyendo un stack vertical de IA para ingeniería de software, y se están moviendo rápido.

Composer 2.5 está disponible ahora. Cursor está ofreciendo uso doble hasta aproximadamente el 25 de mayo. Si lo estás evaluando para tu equipo, esta semana es el momento indicado para correr cargas de trabajo reales.