DeepSeek V4: El Modelo que No Necesita Ganar para Cambiar el Juego

Un año después de su “momento Sputnik,” DeepSeek acaba de lanzar algo más difícil de ignorar que un titular de benchmark.

El 24 de abril de 2026 — exactamente un año después de que los modelos V3/R1 de DeepSeek sacudieran los mercados globales de IA — el laboratorio chino publicó versiones preview de dos nuevos modelos open-weight: V4-Pro y V4-Flash. El timing es deliberado. El mensaje es claro. Y para los desarrolladores que están evaluando su stack de IA en 2026, las implicaciones merecen atención.


Qué Salió al Mercado

Ambos modelos son arquitecturas Mixture-of-Experts. V4-Pro carga 1,6 billones de parámetros totales con 49.000 millones activos por token — convirtiéndolo, por conteo de parámetros, en el modelo open-weight más grande jamás publicado, superando a Kimi K2.6 (1,1B) y GLM-5.1 (754B). V4-Flash es el hermano más liviano: 284.000 millones totales / 13.000 millones activos.

Ambos se publican bajo licencia MIT. Ambos soportan una ventana de contexto nativa de 1 millón de tokens. Ambos están disponibles en Hugging Face, la API de DeepSeek y chat.deepseek.com (Expert Mode = V4-Pro, Instant Mode = V4-Flash).

La comunidad empezó a forkear y cuantizar a las pocas horas del lanzamiento.


La Historia de la Arquitectura: Eficiencia por Encima de la Fuerza Bruta

La noticia real no son los parámetros — es lo que DeepSeek hizo con la atención.

V4 introduce una Arquitectura de Atención Híbrida que combina dos mecanismos: Compressed Sparse Attention (CSA), que mantiene un KV cache compacto más un selector disperso top-k, y Heavily Compressed Attention (HCA), que condensa muchos tokens en una sola entrada. La alternancia de ambos es lo que hace que la ventana de 1M tokens sea operativamente viable y no solo teóricamente disponible.

Los números son concretos: con contexto de 1M tokens, V4-Pro requiere solo el 27% de los FLOPs de inferencia de DeepSeek V3.2 y apenas el 10% de su KV cache. V4-Flash baja aún más: 10% de FLOPs y 7% de KV cache.

Para los desarrolladores, esto se traduce de forma directa. Cargar un repositorio grande completo como un único prompt — algo que con modelos anteriores era caro y frecuentemente incoherente — se convierte en un flujo de trabajo realista. Las mejoras de coherencia en sesiones de contexto largo no son marketing; son una consecuencia arquitectónica.

V4 también introduce Manifold-Constrained Hyper-Connections (mHC), una técnica que fortalece las conexiones residuales para mejorar la estabilidad de la propagación de señal a través de las múltiples capas del modelo sin sacrificar expresividad.


Dónde Aterrizan los Benchmarks

V4-Pro-Max (modo de máximo esfuerzo de razonamiento) registra un score de 93,5 en LiveCodeBench — nuevo máximo para modelos open-weight — y un rating de Codeforces de aproximadamente 3.206, que DeepSeek sitúa alrededor del puesto 23 entre participantes humanos en competencias. En el razonamiento formal Putnam-2025, alcanza un perfecto 120/120.

El posicionamiento honesto: V4-Pro-Max supera a GPT-5.2 y Gemini-3.0-Pro en benchmarks de razonamiento estándar. Se queda marginalmente por debajo de GPT-5.4 y Gemini-3.1-Pro — según la propia caracterización de DeepSeek, el modelo está aproximadamente 3 a 6 meses por detrás de los modelos frontier de última generación en términos de desarrollo.

Vale la pena nombrar esa brecha. Y también lo que cuesta cerrarla.


El Argumento de Precios Es la Verdadera Historia

Acá es donde el panorama estratégico se vuelve imposible de ignorar.

V4-Flash: USD 0,14/millón de tokens de entrada, USD 0,28/millón de salida. V4-Pro: USD 1,74/millón de entrada, USD 3,48/millón de salida.

Simon Willison, cuyas comparaciones de precios de modelos son de las más citadas en la industria, señala que V4-Flash es el modelo más barato del tier de modelos pequeños actuales — por debajo incluso del GPT-5.4 Nano de OpenAI. V4-Pro es el más barato entre los modelos de clase frontier más grandes, con un margen significativo sobre los equivalentes de OpenAI y Anthropic.

DeepSeek atribuye esto a ganancias reales de eficiencia arquitectónica, no a precios subsidiados. Aunque vale aclarar que la compañía reconoció restricciones de throughput al lanzamiento por “limitaciones de cómputo de alta gama,” y señaló que los precios podrían bajar aún más cuando 950 nuevos supernodos Huawei Ascend entren en operación más adelante en 2026.

Este no es un modelo que compite por encabezar cada leaderboard. Es un modelo con un precio tal que el costo de no evaluarlo es significativo.


Qué Significa Esto Si Estás Construyendo

Para consumidores de API: El tier V4-Flash es el primero que vale la pena benchmarkear. A USD 0,14/M de entrada, es accesible para aplicaciones de alto volumen donde el costo ha sido el factor limitante para usar modelos de clase frontier. Para flujos de trabajo agentivos complejos que requieren razonamiento profundo, V4-Pro-Max es el punto de comparación natural frente a equivalentes closed-source.

Para flujos de trabajo de contexto largo: La ventana de 1M tokens no es nueva en 2026 — pero la historia de eficiencia sí lo es. Cargar un repositorio grande, un conjunto completo de documentación, o una conversación extensa de múltiples sesiones sin degradación de coherencia ni costos de inferencia prohibitivos es ahora una consideración práctica, no teórica.

Para quienes quieren hostear en local: El chequeo de realidad importa. V4-Pro, con aproximadamente 865 GB en disco en precisión mixta FP4/FP8, requiere como mínimo ocho GPUs H100 80 GB con NVLink para un despliegue realista — esto es territorio de data center. V4-Flash con 160 GB es otra historia: una versión cuantizada podría correr en un MacBook Pro M5 de 128 GB, y el equipo de Unsloth empezó a publicar variantes cuantizadas a las pocas horas del lanzamiento.

Una dimensión que no desaparece: La soberanía de datos. Los prompts enviados a la API hosteada de DeepSeek transitan por infraestructura china. Para equipos donde la residencia de datos importa, las alternativas son: hostear en local (soberanía total, costo de hardware real) o usar un proveedor de API de terceros como OpenRouter, que sirve los mismos pesos desde infraestructura en EE.UU. o Europa.


La Pregunta Estructural que Vale la Pena Hacerse

El verdadero logro de DeepSeek no es derrotar a GPT-5.4 en un leaderboard. Es demostrar, por segundo año consecutivo, que las curvas de costo de la IA frontier pueden romperse más rápido de lo que los modelos de pricing de los incumbentes asumen.

Un modelo que rinde al 85–90% de capacidad frontier al 10–15% del costo no necesita ganar la guerra de benchmarks para remodelar las decisiones de procurement, las discusiones de arquitectura empresarial y la dinámica competitiva de todos los productos AI-native construidos sobre estas APIs.

El status open-weight acelera todo esto. Los forks, las cuantizaciones y los fine-tunes de la comunidad que van a aparecer en las próximas semanas van a extender el alcance práctico de estos modelos mucho más allá de lo que DeepSeek publica hoy.

Usés V4 o no, los modelos que tus competidores construyan encima de él van a valer la pena seguir de cerca.


DeepSeek-V4-Pro y V4-Flash están disponibles como open weights en Hugging Face bajo licencia MIT y a través de la API de DeepSeek y chat.deepseek.com.