El 1 de julio, OpenAI confirmó que GPT-5.6 Sol se despliega en hardware wafer-scale de Cerebras a hasta 750 tokens por segundo. Para ponerlo en perspectiva: un cluster de GPUs típico sirviendo el mismo modelo llega a entre 40 y 120 t/s en condiciones reales de producción. No es un benchmark de laboratorio. Es el número que van a ver los developers que acceden por API en julio. Y si estás construyendo agentes de IA, eso cambia bastante la ecuación.
Qué pasó y por qué 750 t/s no es un número cualquiera
La confirmación llegó junto al preview de GPT-5.6 Sol, el modelo top de OpenAI con capacidades avanzadas en coding, agentes y razonamiento de larga duración. La colaboración entre OpenAI y Cerebras lleva tiempo — hay un contrato multi-año valorado en más de 20 mil millones de dólares y 750 megawatts de capacidad de inferencia reservada. Lo nuevo es que esa infraestructura ahora tiene salida hacia clientes externos, primero con acceso limitado mientras escalan capacidad.
La razón por la que Cerebras puede lograr estas velocidades es arquitectónica. Los chips wafer-scale usan un solo wafer de silicio de 4 billones de transistores, contra los 80 mil millones de una GPU convencional. La clave no es solo el poder de cómputo: la memoria está en el mismo chip, lo que elimina el cuello de botella principal de la inferencia, que es mover los pesos del modelo entre VRAM y los núcleos de cálculo. El resultado son 6 a 18 veces más velocidad de respuesta que un cluster GPU estándar para el mismo modelo.
Por qué la velocidad de inferencia importa más de lo que parece
Para un chatbot de preguntas frecuentes, esperar 4 o 5 segundos no es un drama grave. El usuario lee la respuesta y sigue. Pero los agentes de IA en producción son otra historia: la latencia se multiplica con cada llamada al LLM.
Un agente típico construido con LangGraph o CrewAI hace entre 8 y 20 llamadas al modelo para completar una tarea moderadamente compleja: busca contexto, razona sobre resultados, usa herramientas externas, verifica salidas e itera si algo falló. Si cada llamada tarda 5 segundos, ese agente necesita entre 40 y 100 segundos por tarea. En batch processing eso puede ser aceptable. En flujos interactivos — un asistente de código en tiempo real, un agente de atención al cliente, un pipeline que responde a eventos — 100 segundos es demasiado lento para ser útil en producción real.
Con 750 t/s, una respuesta de 500 tokens llega en menos de un segundo. Un agente de 10 pasos puede cerrar en menos de 15 segundos incluyendo llamadas a herramientas externas. Eso convierte en viables casos de uso que antes se descartaban simplemente porque "el agente tarda demasiado".
Los tres casos donde el salto es más notable
- ▸Code agents: un agente que escribe código, lo ejecuta en un sandbox, lee el error y lo corrige puede cerrar ese loop en segundos en vez de minutos. Los flujos de testing automatizado y refactoring asistido empiezan a ser prácticos en producción real, no solo en demos.
- ▸Análisis en tiempo real: si tienes un pipeline que necesita clasificar, resumir o tomar decisiones sobre eventos a medida que llegan (logs, transacciones, alertas), la latencia del LLM ya no bloquea el diseño. Puedes poner un LLM directamente en el flujo de datos.
- ▸Agentes conversacionales complejos: el bot de WhatsApp o web chat con RAG y lógica condicional que antes tardaba 8-12 segundos en responder puede funcionar como una conversación fluida. La diferencia en experiencia de usuario es enorme.
Lo que nadie menciona todavía: el acceso inicial de Cerebras es para "select customers", lo que en la práctica significa empresas con contratos directos a gran escala. Si estás en LATAM trabajando con la API estándar de OpenAI, no vas a ver 750 t/s esta semana. Pero la infraestructura ya existe, el acceso se va a ampliar en los próximos meses, y la arquitectura que diseñes hoy va a correr sobre esto más adelante. Tiene sentido diseñar para ello ahora.
Qué necesitas cambiar (y qué no)
La buena noticia: la API de OpenAI es completamente compatible hacia adelante. No necesitas reescribir nada. Si usas LangGraph, CrewAI o cualquier orquestador que llama al SDK de OpenAI, el beneficio llega solo cuando el endpoint más rápido esté disponible para tu cuenta. Sin cambios de código.
Lo que sí vale la pena repensar es el diseño de tus flujos. Si hasta ahora evitabas chains largas, agentes anidados o loops de reflexión porque la latencia los hacía inviables, ese límite se está corriendo. Los patrones donde el agente evalúa su propia salida y la corrige, los workflows multi-paso con muchas llamadas encadenadas, y los sistemas donde un agente orquesta a otros agentes son los que más se benefician cuando la latencia por llamada baja de 5 segundos a menos de 1.
Cómo prepararte para construir agentes que aprovechen esto
La velocidad del modelo resuelve el problema de infraestructura. El problema de diseño — cómo estructurar el grafo de estados del agente, cómo gestionar su memoria entre llamadas, cómo manejar errores y recuperarse de fallos sin perder el contexto — sigue siendo responsabilidad del developer. Y eso es lo que diferencia un agente que funciona en producción de uno que funciona en demos.
Si quieres entrar en serio al desarrollo de agentes en producción, la ruta de AI Agentic Engineer cubre desde la arquitectura de sistemas multi-agente hasta el despliegue real, con LangGraph como orquestador principal. Si estás empezando y quieres primero entender el panorama completo de LLMs e ingeniería de IA, el programa de AI Engineer es donde arrancar antes de especializarte en agentes.
El momento de aprender esto no es cuando la infraestructura de inferencia rápida ya sea mainstream y todos los developers la usen. Es ahora, mientras la curva de adopción todavía da tiempo para posicionarse. El developer que ya construyó y operó 3 o 4 agentes en producción tiene una ventaja real sobre el que lo sabe en teoría. Y esa ventaja se va a notar en el mercado laboral de los próximos 12 a 18 meses.
Empieza por la ruta de AI Agentic Engineer o, si eres nuevo en el área, por el programa de AI Engineer. Los dos te dan las bases para construir sobre lo que viene.



