DeepSeek V4 Pro bajó un 75% y ya no vuelve atrás: lo que todo CTO tiene que recalcular

El 22 de mayo, DeepSeek anunció algo que no pasa seguido en el software empresarial: un descuento promocional se convirtió en el precio de lista permanente. Lo que estaba presentado como una oferta limitada hasta el 31 de mayo es ahora, simplemente, lo que cuesta DeepSeek V4 Pro — $0.435 por millón de tokens de input y $0.87 por millón de tokens de output. Antes eran $1.74 y $3.48, respectivamente.

Esto no es una promoción. Es una señal de repricing.


Los números, sin adornos

Pongo la tabla sobre la mesa, porque la brecha es lo suficientemente ancha como para que enterrarla en prosa sería deshonesto:

Modelo Input ($/M tokens) Output ($/M tokens)
DeepSeek V4 Pro $0.435 $0.87
DeepSeek V4 Flash $0.14 $0.28
Claude Opus 4.7 $15.00 $75.00
GPT-5.5 $5.00 $30.00

La comparación con Opus 4.7 es la que va a dominar las reuniones de planificación en empresas. A $15/$75, Opus 4.7 cuesta aproximadamente 34× más en input y 86× más en output que V4 Pro. Frente a GPT-5.5, DeepSeek es unas 11.5× más barato en input y 34× más barato en output.

Hay también un precio de cache hit que merece su propia línea: $0.003625/M tokens — aproximadamente 1/120 del precio de input sin caché. Para cualquier agente que relee un system prompt o un contexto largo en cada turno, este número cambia la matemática de forma dramática. El precio de cache hit de Anthropic es 1/10 del input por comparación — un multiplicador mucho menor.

Ejemplo concreto: un agente de coding que procesa 1.000 millones de tokens por mes (800M de input cache miss + 200M de output) cuesta aproximadamente $522/mes con DeepSeek V4 Pro. El mismo workload en Claude Opus 4.7 ronda los $9.000. En GPT-5.5, alrededor de $10.000.


¿Qué modelo es este, en realidad?

DeepSeek V4 Pro no es un modelo de nivel económico con marketing de frontier. Es una arquitectura Mixture of Experts de 1,6 billones de parámetros con 49.000 millones de parámetros activados por forward pass, con una ventana de contexto de 1 millón de tokens. Sus resultados en benchmarks lo ubican en 93,5 en LiveCodeBench y 80,6 en SWE-Verified — los benchmarks de coding que los practitioners realmente usan para tomar decisiones.

Los pesos están bajo licencia MIT. Se puede hacer self-hosting si se tiene la infraestructura — aunque requiere hardware serio, y con el pricing de la API a estos niveles, ese cálculo ya no es tan obvio como antes.

Un detalle de infraestructura que vale la pena mencionar: V4 Pro fue optimizado para correr en los aceleradores Huawei Ascend, no exclusivamente en hardware Nvidia. Esto es, según se reporta, uno de los factores que le da a DeepSeek la confianza para sostener precios bajos de forma permanente, a medida que las unidades Ascend 950PR de Huawei escalan durante 2026.


Por qué “permanente” importa más que “75% de descuento”

Un descuento promocional es un experimento de pricing. Un repricing permanente es una señal estratégica.

DeepSeek no está buscando recuperar margen más adelante. Está estableciendo una nueva línea de base — una que hace que las estructuras de costo de los modelos frontier de código cerrado sean cada vez más difíciles de justificar a escala. El modelo es open-weight, el precio ya está fijo, y el rendimiento en benchmarks está en el rango donde los equipos de ingeniería pueden hacer evaluaciones serias.

Para los CTOs que construyen productos AI-native, el cálculo cambia: la pregunta ya no es “¿podemos pagar modelos frontier a escala?” sino “¿qué estamos comprando exactamente cuando pagamos 30× más?”

Esto no significa que los modelos cerrados no tengan nada para ofrecer. Las ventajas del ecosistema de Anthropic — tool use, Artifacts, safety tuning, la plataforma Claude — siguen siendo relevantes para workloads específicos. Pero a nivel de infraestructura, a nivel de costo por token en pipelines con alto volumen de procesamiento, la brecha es ya lo suficientemente ancha como para que no hacer nada sea también una decisión.


Qué evaluaría en este momento

Si estuviera revisando un roadmap técnico de IA esta semana, esto es lo que pondría en agenda:

1. Auditá el consumo de tokens de tus 3 workflows agénticos más importantes. La mayoría de los equipos no saben su consumo real de tokens por componente. Instrumentalo. La tasa de cache hit en system prompts sola suele sorprender.

2. Corré un benchmark sobre tus propios evals, no sobre los benchmarks de la industria. LiveCodeBench importa, pero tu caso de uso específico importa más. Ejecutá tu suite de evaluación contra V4 Pro en DeepInfra o Together.ai antes de sacar conclusiones.

3. Separá “modelo frontier” de “modelo cerrado”. V4 Pro es frontier-grade y open-weight. Antes esas dos cosas eran mutuamente excluyentes. Ya no lo son.

4. Evaluá el riesgo geopolítico con honestidad. DeepSeek es un lab chino. Para algunas industrias reguladas, eso es un bloqueante independientemente del precio. Para muchos casos de uso empresarial, no lo es. Sabé en cuál categoría estás antes de hacer el benchmark.

El repricing ya está hecho. Si actuás en consecuencia es ahora una decisión estratégica, no una restricción presupuestaria.


Fuentes: Engadget · The Decoder · DeepInfra · TokenMix