Claude Opus 4.7: El Mejor Modelo Público de Coding — Y el Primero Construido con los Frenos Puestos

Grego · 18 Abril, 2026 00:01

Voy a ser directo: Opus 4.7 es el mejor modelo de codificación generalmente disponible en el mercado ahora mismo. No es una opinión — son los benchmarks. Pero lo que hace interesante a este lanzamiento no son solo los números. Es lo que Anthropic eligió no ponerle adentro.

Ayer Anthropic lanzó Claude Opus 4.7, y los resultados en ingeniería de software son los más altos que cualquier modelo público haya logrado. Pero este modelo existe en un contexto muy específico: hace nueve días, Anthropic anunció Project Glasswing y reveló que Claude Mythos Preview — su modelo más poderoso — es tan capaz en ciberseguridad ofensiva que decidieron no lanzarlo al público. Opus 4.7 es el primer modelo construido con esa lección incorporada.

Esto es lo que importa.

Los Números que Importan

En SWE-bench Pro — el benchmark que mide la capacidad de resolver issues reales de GitHub en múltiples lenguajes — Opus 4.7 llega a 64.3%. Opus 4.6 estaba en 53.4%. Eso es un salto de casi 11 puntos en una sola versión. Para contexto: GPT-5.4 está en 57.7% y Gemini 3.1 Pro en 54.2%.

En SWE-bench Verified, la versión curada de 500 issues validados por humanos, sube de 80.8% a 87.6%. En Terminal-Bench 2.0, que mide proficiencia en línea de comandos, pasa de 65.4% a 69.4%. En GPQA Diamond (razonamiento científico), llega a 94.2% — prácticamente empatado con GPT-5.4 y Gemini 3.1 Pro en un benchmark que está llegando a saturación.

El dato de los early testers que más me llamó la atención: Cursor reporta un salto de 58% a 70% en CursorBench. Notion dice +14% en flujos multi-paso con un tercio de los errores de herramientas. Rakuten reporta que Opus 4.7 resuelve 3x más tareas de producción que Opus 4.6.

Hex, la plataforma de analytics, lo resumió bien: “Low-effort Opus 4.7 es aproximadamente equivalente a medium-effort Opus 4.6.” Mismo precio, más capacidad por token.

El Contexto que Cambia Todo: Mythos y Glasswing

Acá es donde este lanzamiento se pone estratégicamente interesante.

El 7 de abril, Anthropic anunció que Claude Mythos Preview puede encontrar y explotar vulnerabilidades de software con una velocidad y sofisticación que rivaliza con los mejores investigadores de seguridad humanos. La respuesta fue radical: no lo lanzaron al público. En vez de eso, crearon Project Glasswing — una iniciativa de $100 millones donde solo partners como AWS, Apple, Google, Microsoft, CrowdStrike y unas 40 organizaciones adicionales de infraestructura crítica pueden usar Mythos Preview para escanear y asegurar su propio código.

Opus 4.7 es el primer modelo que Anthropic lanzó después de esa decisión. Y lo dicen explícitamente: durante el entrenamiento, experimentaron con esfuerzos para reducir diferencialmente las capacidades cibernéticas. El modelo viene con safeguards que detectan y bloquean automáticamente requests que indican usos prohibidos o de alto riesgo en ciberseguridad.

Esto es nuevo. No estamos hablando de un disclaimer en los terms of service. Estamos hablando de un modelo diseñado desde el entrenamiento para ser selectivamente menos capaz en un dominio específico, mientras es significativamente más capaz en todo lo demás.

Para los que seguimos gobernanza de IA desde hace años, esto es exactamente lo que el responsible scaling debería verse en la práctica. No “nos autorregulamos” como eslogan de marketing. Un modelo que no lanzás y otro que entrenás diferente porque aprendiste del primero.

Lo Nuevo para Desarrolladores

Más allá de los benchmarks, hay cambios prácticos que vale la pena conocer:

Nivel de esfuerzo xhigh. Opus 4.7 agrega un nuevo nivel entre high y max, dando control más fino sobre la profundidad de razonamiento sin la latencia completa de max. Extended thinking con budget_tokens fue eliminado — ahora es adaptive thinking que ajusta automáticamente.

Visión 3.3x más potente. La resolución de imágenes saltó de 1.15 megapíxeles a 3.75 megapíxeles. Esto no es cosmético — Solve Intelligence reporta mejoras significativas en lectura de estructuras químicas y diagramas técnicos complejos. Para cualquiera que trabaje con documentos técnicos, planos o interfaces, esto importa.

Auto-verificación en tareas largas. Opus 4.7 busca formas de verificar sus propios outputs antes de reportar resultados. Devin reporta que el modelo trabaja “coherentemente por horas” y persiste a través de problemas difíciles en vez de rendirse. Warp confirma que resolvió un bug de concurrencia que Opus 4.6 no pudo.

MCP best-in-class. En MCP-Atlas, Opus 4.7 lidera con 77.3%, arriba del 75.8% de Opus 4.6 y significativamente mejor que GPT-5.4 (68.1%). Si estás construyendo agentes con tool-calling, este es el número que más importa.

El catch del tokenizer. Opus 4.7 usa un tokenizer actualizado. El mismo input puede mapear a entre 1.0x y 1.35x más tokens que en Opus 4.6. El precio por token no cambió ($5/$25 por millón), pero el costo efectivo por request puede subir ligeramente dependiendo de tu caso de uso. Es un detalle que importa en producción.

Lo que Esto Significa

El mercado de modelos frontier está en un momento interesante. GPQA Diamond — el benchmark de razonamiento científico — está prácticamente saturado. Los tres modelos top (Opus 4.7, GPT-5.4, Gemini 3.1 Pro) están dentro de 0.2 puntos. La diferenciación real está migrando a capacidades aplicadas: coding autónomo, uso de herramientas, tareas multi-paso largas.

En ese terreno, Opus 4.7 lidera. Pero Gemini 3.1 Pro está a $2/$12 por millón de tokens con una ventana de contexto de 2M. Si tu caso de uso es procesamiento masivo de documentos y el coding no es tu prioridad, los tradeoffs son reales. GPT-5.4 lidera en computer use (75% en OSWorld) y conocimiento profesional. No hay un ganador absoluto — hay ganadores por caso de uso.

Lo que sí es nuevo es el precedente que Opus 4.7 establece. Es el primer modelo comercial de una empresa frontier que fue explícitamente entrenado para ser menos capaz en un dominio (ciberseguridad ofensiva) mientras maximiza capacidad en el resto. Si esto funciona — y los benchmarks sugieren que no comprometió nada en coding, razonamiento o uso de herramientas — es un template que otros van a tener que seguir o explicar por qué no lo hacen.

Para los profesionales de seguridad que sí necesitan las capacidades cyber de Opus 4.7 para trabajo legítimo (vulnerability research, pentesting, red-teaming), Anthropic creó un Cyber Verification Program donde pueden aplicar para acceso.

Opus 4.7 está disponible hoy en todos los productos de Claude y via API, Amazon Bedrock, Google Cloud Vertex AI, y Microsoft Foundry. El model ID es claude-opus-4-7.

¿Ya probaste Opus 4.7? ¿Notás la diferencia con Opus 4.6 en tu workflow diario? Contanos en los comentarios.

Tema	Respuestas	Vistas
Project Glasswing: El Modelo de IA (Mythos) Demasiado Peligroso para Lanzar al Público — Y Por Qué Anthropic Lo Usó Igual AI Dev Tools — General anthropic , seguridad , ciberseguridad , claude-mythos , vulnerabilidades	8	8 Abril 2026
Claude Opus 4.8: Por Qué la “Honestidad” Importa Más que Otro Benchmark de Coding Claude Code ai , anthropic , claude-code	12	29 Mayo 2026
La Guerra de los Modelos No la Gana el Mejor Modelo AI Dev Tools — General productivity , ai-development , modelos-ai , multi-modelo	9	13 Marzo 2026
🧑‍🏫 Claude Tips for Opus 4.5 from the Claude team for better results AI & Data Sci. claude , tricks-and-tips	6	4 Diciembre 2025
OpenAI Lanza Daybreak: La Carrera Armamentista de la IA Se Traslada a la Ciberseguridad Cybersecurity cybersecurity , openai , codex , devsecops , gpt-5.5 , vulnerability_detect	12	16 Mayo 2026

Claude Opus 4.7: El Mejor Modelo Público de Coding — Y el Primero Construido con los Frenos Puestos

Los Números que Importan

El Contexto que Cambia Todo: Mythos y Glasswing

Lo Nuevo para Desarrolladores

Lo que Esto Significa

Temas relacionados