OpenAI lanzó GPT-Realtime-2 y otros dos modelos de voz a través de la API

Q: ¿Cuál es la fuente?

Publicado originalmente en 3DNews AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2026-05-17. Tiempo de lectura: 3 min.

OpenAI amplió la API con tres modelos de voz: el GPT-Realtime-2 actualizado y dos nuevos. Permiten que las aplicaciones reconozcan el habla, sinteticen voz y tr

Redacción de Hamidun News

Monitoreo de AI · 3DNews AI

2026-05-17· 3 min

Procesado por IA desde 3DNews AI; editado por Hamidun News

OpenAI lanzó GPT-Realtime-2 y otros dos modelos de voz a través de la API — Fuente: 3DNews AI. Collage: Hamidun News.

◐ Escuchar artículo

OpenAI anunció una expansión de las capacidades de voz en su API — los desarrolladores ahora tienen acceso al modelo GPT-Realtime-2 actualizado y dos nuevos modelos de voz para reconocimiento, síntesis y traducción de voz.

Tres Nuevos Modelos de Voz en la API

Se han añadido tres modelos a la API: un GPT-Realtime-2 actualizado (una versión mejorada del existente) y dos modelos completamente nuevos. Están diseñados para diferentes tareas — reconocer la voz del usuario, sintetizar respuestas con voz y traducir conversaciones entre idiomas en tiempo real. Esto significa que los desarrolladores ahora pueden incrustar interacción por voz directamente en sus aplicaciones sin usar servicios externos de reconocimiento y síntesis de voz. Anteriormente, era necesario integrar varios proveedores — uno para el reconocimiento, otro para la síntesis, un tercero para la traducción. Ahora todo está en un solo lugar.

Lo Que Pueden Hacer los Nuevos Modelos

Reconocimiento de voz (speech-to-text) con soporte para muchos idiomas
Síntesis de voz (text-to-speech) con sonido natural e entonación
Traducción de conversaciones en tiempo real preservando el contexto
Baja latencia para aplicaciones interactivas (streaming)
Integración profunda con GPT-4 para comprensión semántica

Los modelos fueron entrenados en grandes volúmenes de datos de audio y muestran buenos resultados tanto en inglés como en otros idiomas. GPT-Realtime-2 ha sido actualizado — mejoras en el procesamiento del habla natural, la comprensión del contexto y la velocidad de respuesta. Los desarrolladores tendrán herramientas para crear aplicaciones que escuchen al usuario, entiendan lo que dicen y respondan con voz. Esto es importante para asistentes de voz, call centers, aplicaciones educativas y servicios interactivos.

Cómo Funciona en la Práctica

Imagina una aplicación de aprendizaje de idiomas. Un estudiante habla en un idioma extranjero. La API lo escucha (speech-to-text), envía el texto a GPT-4 para verificación y corrección, luego vocaliza el resultado en voz natural (text-to-speech). Todo esto sucede en tiempo real. O considera una aplicación traductora: una turista habla en ruso, la API traduce en tiempo real y lo vocaliza en inglés. Sin retrasos como en Google Translate.

Disponibilidad y Competencia

Por ahora, los modelos están disponibles solo a través de la API para desarrolladores. No aparecerán en ChatGPT u otras aplicaciones de consumo de OpenAI (al menos no en el futuro cercano). Esto permite que OpenAI libere nuevas capacidades a especialistas, las refine en aplicaciones reales y luego, si es necesario, las integre en productos de consumo. Los precios de la API serán más altos que los modelos de texto, pero más bajos que los competidores (por ejemplo, Google Cloud Speech-to-Text). OpenAI compite con Google, Amazon Polly, Microsoft Azure Speech Services y otras plataformas en la nube. Las API de voz son un campo competitivo donde cada milisegundo de latencia y cada porcentaje de precisión importan.

La interfaz de voz ya no es exótica — se está convirtiendo en el

estándar para las aplicaciones modernas.

Lo Que Esto Significa

La interfaz de voz se está volviendo más accesible. Ahora cualquier desarrollador puede agregar comunicación por voz con IA a su aplicación sin costosa integración de servicios de terceros. Esto acelerará la aparición de aplicaciones de IA de voz en el mercado e hará que la interacción con los servicios sea más natural.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita