MiniMax M3: El Primer Modelo Open-Weight que Entra en Territorio Frontier

MiniMax M3: El Primer Modelo Open-Weight que Entra en Territorio Frontier

Durante los últimos dos años vi cómo se trazaba la misma línea una y otra vez. De un lado: la frontera propietaria — coding de primer nivel, contexto de un millón de tokens, multimodalidad nativa, todo en un solo modelo. Del otro: el mundo open-weight, que siempre parecía tener dos de las tres cosas pero nunca las tres al mismo tiempo. Podías conseguir un buen modelo open de coding, o uno de contexto largo, o uno multimodal. Querer las tres significaba firmar un contrato de API con alguien en San Francisco.

El 1 de junio, MiniMax lanzó M3 y borró esa línea — al menos en el papel.

Qué se anunció realmente

M3 se lanzó simultáneamente a través de MiniMax Code, el Token Plan por suscripción de la empresa, y su API. La propuesta es directa: es el primer modelo open-weight que combina coding a nivel frontier, una ventana de contexto de 1M tokens, y comprensión nativa de imagen y video en una sola arquitectura. MiniMax plantea estas tres capacidades como el mínimo indispensable de cualquier modelo frontier cerrado de hoy — y afirma que M3 es el único modelo open-weight que las junta a las tres.

El benchmark que se va a llevar los titulares es SWE-Bench Pro, donde M3 reporta 59.0%. Según los números de la propia MiniMax, eso lo ubica por delante de GPT-5.5 y Gemini 3.1 Pro, y apenas por detrás de Opus 4.7. El resto de la suite de coding y agentes está en el mismo barrio: 66.0% en Terminal-Bench 2.1, 74.2% en MCP Atlas, y una ventaja reportada sobre Opus 4.7 en búsqueda web autónoma (BrowseComp).

El precio es donde la cosa se pone interesante para cualquiera que corra esto a escala: $0.60 por millón de tokens de input y $2.40 por millón de output. Eso no es un error de redondeo frente al precio de la frontera propietaria — es otra categoría de costo.

La parte que de verdad importa: MSA

Acá es donde le diría a un colega técnico que frene y lea con atención. Una ventana de contexto de 1M tokens ya no es novedad — varios modelos publicitan una. La pregunta que decide si alguna vez la vas a usar de verdad es: ¿cuánto cuesta por token cuando la ventana está llena?

Este es el anuncio real. M3 introduce una nueva arquitectura de atención que MiniMax llama MSA (MiniMax Sparse Attention). En lugar de comparar cada token contra todos los demás — la trampa de costo cuadrático de la full attention — MSA divide el contexto almacenado en bloques, corre una pasada de pre-filtrado para decidir qué bloques son realmente relevantes para la query actual, y solo hace el cálculo completo sobre esos.

Los números que reporta MiniMax: con 1M tokens, el cómputo por token cae a aproximadamente 1/20 del de la generación anterior. Más de 9× más rápido en prefill, más de 15× más rápido en decode. Dicho de otra forma, la ventana de un millón de tokens no es un trofeo de ficha técnica que vas a evitar tocar por la factura — está diseñada para ser económicamente usable.

Si esas cifras se sostienen en testing independiente, esta es la contribución genuinamente importante. Los rankings de benchmarks van a cambiar cada par de semanas; un mecanismo de atención que abarata el contexto largo es el tipo de cosa que cambia cómo diseñás un sistema.

Los tests de autonomía valen una mirada

MiniMax corrió tres experimentos internos de horizonte largo que van más allá de los benchmarks de un solo prompt. El que me quedó grabado: le dieron a M3 un paper premiado en ICLR 2025 sobre fine-tuning de LLMs y le pidieron que reprodujera el trabajo de forma independiente. M3 corrió de manera autónoma durante casi doce horas, produjo 18 commits y 23 figuras experimentales, y reprodujo los hallazgos centrales del paper.

En un segundo test, le pidieron a M3 que optimizara un kernel FP8 GEMM en GPUs NVIDIA Hopper a partir de un esqueleto que no funcionaba y sin implementación de referencia — una tarea que, según MiniMax, le lleva a un equipo experimentado de una a dos semanas. A lo largo de unas 24 horas corrió 147 submissions de benchmark y empujó la utilización del hardware de 7.6% a 71.3%, sin llegar a su mejor solución hasta el intento 145.

Sobrevivan o no esos números exactos al escrutinio, el encuadre te dice hacia dónde va el campo: la próxima generación de agentes de coding no se va a juzgar por la generación de código de un solo tiro, sino por la colaboración de larga duración, la planificación, y la capacidad de atravesar mesetas sin rendirse.

Dónde corresponde el escepticismo

No te voy a entregar un comunicado de prensa disfrazado de análisis. Algunas cosas para tener presentes antes de reorganizar tu stack alrededor de esto:

Estos son los benchmarks de la propia MiniMax. Cada cifra de arriba viene del material de lanzamiento de la empresa. Los números de SWE-Bench Pro en particular tienen la costumbre de verse distintos una vez que labs independientes corren sus propios harnesses.

Los pesos todavía no salieron. “Open-weight” es toda la propuesta — pero al momento del lanzamiento, MiniMax solo prometió los pesos y un reporte técnico en Hugging Face y GitHub dentro de aproximadamente diez días. Hasta que aparezcan y alguien fuera de MiniMax pueda correr el modelo, la afirmación open-weight es un compromiso, no un hecho sobre el que puedas construir.

La frontera ya se movió. El encuadre de “apenas por detrás de Opus 4.7” era cierto el 1 de junio. Anthropic desde entonces lanzó Opus 4.8. Comparar un modelo recién lanzado con la frontera del mes pasado es práctica estándar de marketing, y conviene que ajustes el ranking mentalmente en consecuencia.

Y sí — M3 viene de un lab chino, lo que para algunos equipos arrastra implicancias de gobernanza de datos y de compras que vale la pena pensar antes de adoptarlo. Lo menciono porque es un factor real en las decisiones enterprise, no porque cambie el panorama técnico.

Mi lectura

Sacá el ruido del día del lanzamiento y quedan dos cosas en pie. Primero: si los pesos open salen como se prometió y los benchmarks sobreviven a la replicación independiente, M3 es la primera vez que el mundo open-weight reclama de forma creíble las tres capacidades frontier a la vez — y eso es un cambio estructural, no incremental. Segundo: MSA es la parte que yo estaría mirando de verdad. El contexto largo barato cambia lo que podés construir; un puesto de benchmark que es cierto esta semana, no.

Por ahora, la posición honesta es: lo bastante prometedor como para testearlo, demasiado temprano como para apostarle. Metelo en un sandbox cuando salgan los pesos, corrélo en tus propias cargas de trabajo con tu propio harness, y decidí desde ahí. Eso sí — no dejes que el titular del 59% piense por vos.