3DNews AI→ original

OpenAI está integrando en ChatGPT Bidi 1 — un modelo de voz que habla y escucha al mismo tiempo

OpenAI está convirtiendo ChatGPT en una superapp. Está en desarrollo una gran actualización con tres componentes clave: Codex (un asistente de programación…

Procesado por IA desde 3DNews AI; editado por Hamidun News
OpenAI está integrando en ChatGPT Bidi 1 — un modelo de voz que habla y escucha al mismo tiempo
Fuente: 3DNews AI. Collage: Hamidun News.
◐ Escuchar artículo

OpenAI está acelerando la transformación de ChatGPT en una super app: la empresa está desarrollando simultáneamente un modelo de voz bidireccional Bidi 1, incrustando un asistente programador Codex y expandiendo capacidades de agentes.

¿Qué es GPT Bidi 1?

En el código de la aplicación móvil de ChatGPT, los investigadores encontraron rastros de un nuevo modelo de audio con el nombre en código GPT Bidi 1. "Bidi" significa bidirectional — bidireccional. Este es un enfoque fundamentalmente diferente en comparación con el modo de voz actual, donde el modelo alterna secuencialmente entre escuchar y responder: primero escucha, luego habla — como una radio con botón de "envío".

El modo duplex cambia la propia dinámica del diálogo. El usuario podrá interrumpir al asistente a mitad de una frase, y el asistente podrá reaccionar a la entonación, pausas y ritmo del habla en tiempo real, sin esperar una pausa. El retraso entre las intervenciones se reduce notablemente, y la conversación se vuelve menos robótica.

Así es como funcionan las interfaces de voz más avanzadas: Apple Intelligence en iOS 18 y Google Duplex han soportado durante mucho tiempo el intercambio duplex completo.

Lo que cambia con Bidi 1:

  • voz y audición funcionan simultáneamente — sin espera en el "aire"
  • el usuario puede interrumpir la respuesta en cualquier momento
  • el tiempo de respuesta entre intervenciones se reduce
  • el asistente escucha la entonación y reacciona a las pausas
  • la conversación suena más natural y más cercana a un diálogo con un humano

La fecha de lanzamiento específica de Bidi 1 aún no ha sido anunciada, pero la presencia del modelo en el código de producción de ChatGPT sugiere que el lanzamiento ya está cerca.

Codex dentro de ChatGPT

En paralelo con el desarrollo de voz, OpenAI está incrustando su asistente programador Codex en ChatGPT. Hasta ahora, Codex existía como un producto separado con su propia interfaz. Después de la integración, podrá escribir, depurar y explicar código directamente en la ventana de chat principal sin cambiar de pestañas. Para los desarrolladores que ya han hecho de ChatGPT parte de su flujo de trabajo, esta es una simplificación significativa: en lugar de dos herramientas separadas, habrá un espacio de trabajo unificado. Codex estará disponible en el mismo diálogo que la búsqueda web, la generación de imágenes, el análisis de archivos y — pronto — el modo de voz Bidi 1.

Agentes — el tercer frente

El tercer componente de la actualización a gran escala son las herramientas para agentes de IA. ChatGPT se está transformando sistemáticamente de un chatbot reactivo a un asistente proactivo capaz de ejecutar tareas de múltiples pasos de forma autónoma: reservar boletos, comparar productos en mercados, rellenar formularios en línea, buscar y sintetizar información de diferentes fuentes.

"Queremos hacer de

ChatGPT una aplicación que haga todo por ti que normalmente haces en internet", dicen fuentes familiarizadas con la estrategia de OpenAI.

Los tres componentes — voz en vivo Bidi 1, Codex incrustado y agentes autónomos — se refuerzan entre sí. Un agente con voz duplex y la capacidad de escribir código es una clase de herramienta fundamentalmente diferente, no solo un chatbot actualizado.

Qué significa esto

OpenAI se está moviendo deliberadamente hacia un formato de super app — un único producto que cubre la mayoría de escenarios cotidianos: voz, código, automatización de tareas, búsqueda de información. Para el usuario promedio, la consecuencia inmediata es que las conversaciones con ChatGPT serán notablemente más vivas y naturales. Para los negocios, esto significa un nuevo nivel de automatización de tareas operacionales que antes requerían un humano o un conjunto de herramientas SaaS separadas. Los competidores — de Google a Anthropic — tendrán que acelerar de nuevo.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

¿Qué te parece?
Cargando comentarios…