OpenAI añade GPT-Realtime-2, Translate y Whisper a la API para aplicaciones de voz
OpenAI anunció de golpe tres modelos realtime de voz para la API. GPT-Realtime-2 ofrece razonamiento al nivel de GPT-5, puede invocar herramientas y admite hast

El 7 de mayo de 2026, OpenAI presentó tres modelos de voz en tiempo real a su API: GPT-Realtime-2 para diálogo y acciones, GPT-Realtime-Translate para traducción en vivo y GPT-Realtime-Whisper para transcripción por streaming. La empresa está claramente moviendo interfaces de voz de un modo "responder a entrada" a un modo en el que el asistente puede escuchar, razonar, usar herramientas y mantener la continuidad de la conversación.
Tres Modelos a la Vez
La idea principal del lanzamiento es simple: la voz en aplicaciones debe funcionar no como una superposición decorativa, sino como una interfaz completa. OpenAI observa que los desarrolladores están construyendo cada vez más tres tipos de escenarios: voice-to-action, donde los usuarios formulan tareas por voz y el sistema las ejecuta; systems-to-voice, donde el software informa a los usuarios sobre lo que está sucediendo; y voice-to-voice, donde la IA ayuda a facilitar conversaciones entre personas que hablan idiomas diferentes. La nueva línea de modelos fue ensamblada para abordar este rango de escenarios.
- GPT-Realtime-2 — modelo de voz con razonamiento a nivel GPT-5, compatible con llamadas de herramientas y ventanas de contexto más largas.
- GPT-Realtime-Translate — traducción de habla en tiempo real de más de 70 idiomas de entrada a 13 idiomas de salida con pausas mínimas.
- GPT-Realtime-Whisper — transcripción por streaming que escribe el texto conforme ocurre el habla, en lugar de después de que se complete una frase.
- Los precios también fueron anunciados de inmediato: GPT-Realtime-2 cuesta $32 por 1 millón de tokens de audio de entrada y $64 por 1 millón de tokens de salida, Translate — $0,034 por minuto, Whisper — $0,017 por minuto.
Los tres modelos ya están disponibles a través de la API Realtime, y pueden probarse en Playground. Este es un momento importante: OpenAI no está mostrando un concepto lejano, sino lanzando un conjunto de herramientas listo para equipos que construyen servicios de soporte, agentes de voz, traducción en tiempo real, notas de reuniones y otros productos que involucran habla en vivo. Para el mercado, esto señala que las herramientas están listas no solo para demos, sino también para pilotos.
Qué Mejoró en el Diálogo
La actualización más notable está en GPT-Realtime-2. El modelo puede insertar breves frases de servicio como "déjame verificar" para que los usuarios entiendan que el sistema está trabajando en una tarea. Puede llamar a múltiples herramientas en paralelo, indicar verbalmente sus acciones, recuperarse mejor de errores e interrupciones, y manejar escenarios notablemente más largos: la ventana de contexto ha crecido de 32K a 128K. Para producción, esto importa mucho más que una "voz agradable", porque los asistentes reales normalmente se rompen en largas cadenas de interacciones.
OpenAI enfatiza específicamente la controlabilidad del modelo. Los desarrolladores pueden elegir el nivel de razonamiento de minimal a xhigh, equilibrando latencia y calidad de respuesta. La comprensión de terminología especializada, nombres propios y vocabulario específico del dominio — por ejemplo, términos médicos — también ha mejorado.
En evaluaciones internas, GPT-Realtime-2 en modo high mostró resultados 15,2% mejores que GPT-Realtime-1.5 en Big Bench Audio, y en modo xhigh — 13,8% mejores en Audio MultiChallenge para el seguimiento de instrucciones en conversación.
"Después de ajustar los prompts, vimos que las tasas de éxito de llamadas mejoraban del 69% al 95%," — así es como
Zillow describe las pruebas iniciales de GPT-Realtime-2.
Traducción y Transcripción
El segundo modelo, GPT-Realtime-Translate, apunta al diálogo multilingüe en vivo. Traduce habla conforme la conversación se desarrolla, preservando el ritmo del hablante y el significado incluso cuando las personas hablan con acento, saltan entre temas o usan terminología específica de la industria. OpenAI destaca específicamente casos de uso en soporte, ventas transfronterizas, educación, eventos, medios y plataformas para autores.
Deutsche Telekom está probando el modelo para soporte al cliente multilingüe, mientras que Vimeo demuestra un escenario donde el video educativo se traduce durante la reproducción.
El tercer modelo, GPT-Realtime-Whisper, aborda una tarea más práctica pero altamente solicitada: convertir habla en texto rápidamente. OpenAI la posiciona como base para subtítulos, notas de reuniones, transcripción de clases, transmisiones en vivo y agentes de voz que necesitan entender continuamente lo que dicen los usuarios.
Al mismo tiempo, la empresa nos recuerda sobre mecanismos de protección: la API Realtime utiliza clasificadores activos, algunas sesiones pueden ser detenidas si se violan las reglas, y los desarrolladores deben informar claramente a los usuarios cuándo están hablando con una IA.
Qué Significa Esto
OpenAI está intentando ocupar no solo el mercado de modelos de chat, sino también la capa fundamental para productos de voz. Si la calidad y la latencia realmente coinciden con las métricas declaradas, la empresa obtiene una posición fuerte en centros de llamadas, servicios de viajes, plataformas educativas y asistentes corporativos, donde la conversación estable, la traducción sin pausas y el texto que aparece en el momento en que el usuario habla importan más que demos impresionantes.