Audiencia: Backend / platform engineers
Formato: Architecture analysis
Contexto: Sistemas AI confiables y mantenibles en producción
TL;DR
- OpenAI está agregando primitives de durability al Agents SDK
- El foco ya no es solo generación — es ejecución confiable
- Los workflows AI empiezan a adoptar patrones clásicos de sistemas distribuidos
El cambio importante
Durante gran parte de 2024 y principios de 2025, los agentes AI se parecían más a demos sofisticadas que a sistemas operacionales.
Funcionaban bien cuando:
- todo salía perfecto
- el workflow era corto
- no había interrupciones
Pero los sistemas reales no funcionan así.
El problema silencioso
La mayoría de los workflows AI fallan por razones muy poco “AI”:
- timeouts
- APIs lentas
- errores de red
- ejecuciones parciales
- herramientas que responden mal
- pérdida de estado
En otras palabras:
problemas clásicos de infraestructura
Qué está agregando OpenAI
El nuevo enfoque del Agents SDK introduce primitives para:
- retries automáticos
- ejecución resumible
- persistencia de estado
- recuperación ante fallos
Eso cambia completamente el tipo de sistemas que se pueden construir.
Antes vs ahora
Antes:
prompt → respuesta → fin
Ahora:
workflow persistente y recuperable
Por qué esto importa
Porque los agentes modernos ya no son:
- una única llamada al modelo
Ahora son:
- workflows largos
- múltiples herramientas
- pasos dependientes
- ejecución asincrónica
- coordinación entre sistemas
El paralelismo con backend engineering
Esto empieza a verse muy familiar.
Los mismos problemas que resolvemos en:
- microservicios
- jobs distribuidos
- colas de mensajes
- pipelines de datos
Ahora aparecen en AI workflows.
Retry ya no es opcional
Ejemplo simple:
1. agente analiza PR
2. ejecuta tests
3. consulta documentación
4. genera resumen
5. publica comentario
¿Qué pasa si falla el paso 4?
Sin durability:
todo el workflow se pierde
Con ejecución resumible:
el sistema continúa desde el punto correcto
El verdadero cambio: statefulness
La persistencia de estado es probablemente la parte más importante.
Porque permite:
- workflows largos
- coordinación entre pasos
- recuperación confiable
- trazabilidad operacional
Lo interesante
La conversación pública todavía gira mucho alrededor de:
- benchmarks
- reasoning
- contexto
Pero OpenAI claramente está empujando otra dirección:
infraestructura operacional para agentes
El nuevo stack AI empieza a parecerse a esto
LLM
↓
Workflow Runtime
↓
State Persistence
↓
Retries + Recovery
↓
Tool Execution
↓
Observability
El modelo es solo una capa.
Qué cambia para platform teams
El trabajo ya no es simplemente:
- integrar una API AI
Ahora implica:
- diseñar workflows durables
- manejar estados persistentes
- controlar retries
- evitar loops infinitos
- monitorear ejecución
El riesgo que viene
Cuando agregas retries automáticos y persistencia:
también amplificas riesgos
Ejemplos:
- retry storms
- loops autónomos
- costos inesperados
- repetición de acciones sensibles
Patrones que empiezan a importar
Idempotencia
Las acciones deben poder repetirse sin romper el sistema.
Timeouts claros
Los workflows necesitan límites explícitos.
Circuit breakers
Evitar cascadas de errores.
Observabilidad
Necesitas:
- tracing
- logs
- replay
- auditoría
Lo que separa demos de producción
Una demo AI:
- genera algo impresionante una vez
Producción requiere:
- recuperación
- resiliencia
- consistencia
- control operacional
Perspectiva para equipos lean
Esto es especialmente importante para equipos pequeños.
Porque los workflows AI sin durability:
- requieren intervención manual constante
- generan debugging caótico
- escalan mal operacionalmente
La confiabilidad importa más cuando el margen operacional es pequeño.
Veredicto
El movimiento de OpenAI es una señal fuerte:
los agentes están entrando en su fase “infraestructura”
Y eso significa que conceptos clásicos de backend engineering vuelven a ser centrales.
Reflexión final
La próxima generación de sistemas AI probablemente no gane por:
- mejores prompts
- más contexto
- más velocidad
Va a ganar por:
- resiliencia
- recuperación
- observabilidad
- confiabilidad operacional
Porque al final:
un workflow AI útil no es el que impresiona una vez.
Es el que sigue funcionando cuando las cosas salen mal.
