OpenAI ajoute GPT-Realtime-2, Translate et Whisper à l’API pour les applications vocales
OpenAI a annoncé trois modèles vocaux realtime pour l’API. GPT-Realtime-2 offre un raisonnement au niveau de GPT-5, peut invoquer des outils et prend en charge

Le 7 mai 2026, OpenAI a présenté trois modèles de voix en temps réel à son API : GPT-Realtime-2 pour le dialogue et les actions, GPT-Realtime-Translate pour la traduction en direct et GPT-Realtime-Whisper pour la transcription par streaming. L'entreprise déplace clairement les interfaces vocales d'un mode « répondre à l'entrée » à un mode où l'assistant peut écouter, raisonner, utiliser des outils et maintenir la continuité de la conversation.
Trois Modèles à la Fois
L'idée principale du lancement est simple : la voix dans les applications doit fonctionner non comme une surcouche décorative, mais comme une interface complète. OpenAI note que les développeurs construisent de plus en plus trois types de scénarios : voice-to-action, où les utilisateurs formulent des tâches par la voix et le système les exécute ; systems-to-voice, où le logiciel informe les utilisateurs de ce qui se passe ; et voice-to-voice, où l'IA aide à faciliter les conversations entre personnes parlant différentes langues. La nouvelle gamme de modèles a été assemblée pour répondre à cette gamme de scénarios.
- GPT-Realtime-2 — modèle vocal avec raisonnement au niveau GPT-5, supportant les appels d'outils et les fenêtres de contexte plus longues.
- GPT-Realtime-Translate — traduction de la parole en temps réel de plus de 70 langues d'entrée vers 13 langues de sortie avec des pauses minimales.
- GPT-Realtime-Whisper — transcription par streaming qui écrit le texte au fur et à mesure de la parole, plutôt qu'après la fin d'une phrase.
- Les prix ont également été annoncés immédiatement : GPT-Realtime-2 coûte 32 $ par 1 million de tokens audio d'entrée et 64 $ par 1 million de tokens de sortie, Translate — 0,034 $ par minute, Whisper — 0,017 $ par minute.
Les trois modèles sont déjà disponibles via l'API Realtime, et peuvent être testés dans Playground. C'est un moment important : OpenAI ne montre pas un concept lointain, mais lance un ensemble d'outils prêts à l'emploi pour les équipes qui construisent des services d'assistance, des agents vocaux, la traduction en temps réel, les notes de réunion et d'autres produits impliquant la parole en direct. Pour le marché, cela signale que les outils sont prêts non seulement pour les démos, mais aussi pour les pilotes.
Ce Qui S'est Amélioré dans le Dialogue
La mise à jour la plus notable se trouve dans GPT-Realtime-2. Le modèle peut insérer de brèves phrases de service comme « laissez-moi vérifier » pour que les utilisateurs comprennent que le système travaille sur une tâche. Il peut appeler plusieurs outils en parallèle, indiquer verbalement ses actions, mieux récupérer après des erreurs et interruptions, et gérer des scénarios notablement plus longs : la fenêtre de contexte est passée de 32K à 128K. Pour la production, cela importe beaucoup plus qu'une « voix agréable », car les vrais assistants se cassent normalement sur de longues chaînes d'interactions.
OpenAI souligne spécifiquement la contrôlabilité du modèle. Les développeurs peuvent choisir le niveau de raisonnement de minimal à xhigh, en équilibrant latence et qualité de réponse. La compréhension de la terminologie spécialisée, des noms propres et du vocabulaire spécifique au domaine — par exemple, les termes médicaux — s'est également améliorée.
Lors d'évaluations internes, GPT-Realtime-2 en mode high a montré des résultats 15,2% meilleurs que GPT-Realtime-1.5 sur Big Bench Audio, et en mode xhigh — 13,8% meilleurs sur Audio MultiChallenge pour le suivi des instructions en conversation.
«
Après avoir affiné les prompts, nous avons vu les taux de succès des appels passer de 69% à 95% », — c'est ainsi que Zillow décrit les premiers tests de GPT-Realtime-2.
Traduction et Transcription
Le deuxième modèle, GPT-Realtime-Translate, cible le dialogue multilingue en direct. Il traduit la parole au fur et à mesure que la conversation se déroule, préservant le rythme du locuteur et le sens même lorsque les gens parlent avec un accent, sautent entre les sujets ou utilisent la terminologie propre à l'industrie. OpenAI met spécifiquement en évidence les cas d'usage en support, ventes transfrontalières, éducation, événements, médias et plateformes d'auteurs.
Deutsche Telekom teste le modèle pour le support client multilingue, tandis que Vimeo montre un scénario où la vidéo éducative est traduite pendant la lecture.
Le troisième modèle, GPT-Realtime-Whisper, résout une tâche plus pratique mais très demandée : convertir rapidement la parole en texte. OpenAI la positionne comme base pour les sous-titres, les notes de réunion, la transcription de cours, les transmissions en direct et les agents vocaux qui doivent continuellement comprendre ce que disent les utilisateurs.
Dans le même temps, l'entreprise nous rappelle les mécanismes de protection : l'API Realtime utilise des classificateurs actifs, certaines sessions peuvent être arrêtées en cas de violation des règles, et les développeurs doivent informer clairement les utilisateurs quand ils parlent avec une IA.
Ce Que Cela Signifie
OpenAI tente d'occuper non seulement le marché des modèles de chat, mais aussi la couche fondamentale pour les produits vocaux. Si la qualité et la latence correspondent réellement aux métriques déclarées, l'entreprise obtient une position forte dans les centres d'appels, les services de voyage, les plateformes éducatives et les assistants d'entreprise, où la conversation stable, la traduction sans pause et le texte apparaissant au moment où l'utilisateur parle importent plus que les démos impressionnantes.