OpenAI Blog→ оригинал

أضافت OpenAI إلى API نماذج GPT-Realtime-2 وTranslate وWhisper للتطبيقات الصوتية

أعلنت OpenAI عن ثلاثة نماذج صوتية realtime لـ API دفعة واحدة. يقدّم GPT-Realtime-2 استدلالًا بمستوى GPT-5، ويمكنه استدعاء الأدوات، ويدعم سياقًا يصل إلى 128K. وي

أضافت OpenAI إلى API نماذج GPT-Realtime-2 وTranslate وWhisper للتطبيقات الصوتية
المصدر: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

في السابع من مايو 2026، قدمت OpenAI ثلاث نماذج صوتية في الوقت الفعلي إلى واجهة برمجتها (API): GPT-Realtime-2 للحوار والإجراءات، وGPT-Realtime-Translate للترجمة الحية، وGPT-Realtime-Whisper لنسخ الصوت بالبث المباشر. تنقل الشركة بوضوح واجهات الصوت من نمط "الرد على المدخلات" إلى نمط حيث يمكن للمساعد الاستماع والتفكير واستخدام الأدوات والحفاظ على استمرارية الحوار.

ثلاثة نماذج دفعة واحدة

الفكرة الرئيسية وراء الإطلاق بسيطة: يجب أن تعمل الصوت في التطبيقات ليس كطبقة زخرفية بل كواجهة متكاملة. تلاحظ OpenAI أن المطورين يبنون بشكل متزايد ثلاثة أنواع من السيناريوهات: من-صوت-إلى-إجراء، حيث يصيغ المستخدمون المهام بالصوت ويقوم النظام بتنفيذها؛ من-أنظمة-إلى-صوت، حيث يخبر البرنامج المستخدمين بما يحدث؛ ومن-صوت-إلى-صوت، حيث تساعد الذكاء الاصطناعي على تسهيل المحادثات بين الأشخاص الذين يتحدثون لغات مختلفة. تم تجميع خط النماذج الجديد للتعامل مع هذا النطاق من السيناريوهات.

  • GPT-Realtime-2 — نموذج صوتي مع مستوى تفكير GPT-5، يدعم استدعاءات الأدوات ونوافذ سياق أطول.
  • GPT-Realtime-Translate — ترجمة الكلام في الوقت الفعلي من أكثر من 70 لغة إدخال إلى 13 لغة إخراج مع فترات توقف قليلة جداً.
  • GPT-Realtime-Whisper — نسخ الصوت بالبث المباشر الذي يكتب النص مع حدوث الكلام، وليس بعد انتهاء الجملة.
  • تم الإعلان عن الأسعار أيضاً على الفور: تكلفة GPT-Realtime-2 32 دولار لكل مليون رمز صوتي إدخال و64 دولار لكل مليون رمز إخراج، Translate — 0.034 دولار في الدقيقة، Whisper — 0.017 دولار في الدقيقة.

جميع النماذج الثلاثة متاحة بالفعل من خلال واجهة Realtime API، ويمكن اختبارها في Playground. هذه لحظة مهمة: OpenAI لا تعرض مفهوماً بعيداً بل تطلق مجموعة أدوات جاهزة للفرق التي تبني خدمات الدعم والعملاء الذين يعملون بالصوت والترجمة في الوقت الفعلي وملاحظات الاجتماعات والمنتجات الأخرى التي تتضمن الكلام المباشر. بالنسبة للسوق، يشير هذا إلى أن الأدوات جاهزة ليس فقط للعروض التوضيحية بل أيضاً للمشاريع التجريبية.

ما الذي تحسن في الحوار

التحديث الأكثر لفتاً للنظر موجود في GPT-Realtime-2. يمكن للنموذج إدراج عبارات خدمية قصيرة مثل "دعني أتحقق من ذلك" حتى يفهم المستخدمون أن النظام يعمل على مهمة. يمكنه استدعاء عدة أدوات بالتوازي والإشارة لفظياً إلى إجراءاته والتعافي بشكل أفضل من الأخطاء والانقطاعات والتعامل مع سيناريوهات أطول بشكل ملحوظ: نما نطاق السياق من 32K إلى 128K. للإنتاج، هذا يهم كثيراً أكثر من "صوت لطيف"، لأن المساعدات الحقيقية عادة ما تنهار على سلاسل طويلة من التفاعلات.

تؤكد OpenAI بشكل خاص على التحكم في النموذج. يمكن للمطورين اختيار مستوى التفكير من الحد الأدنى إلى الحد الأقصى جداً، الموازنة بين الكمون وجودة الإجابة. كما تحسن فهم المصطلحات المتخصصة والأسماء الصحيحة والمفردات المخصصة بالمجال — على سبيل المثال، الشروط الطبية.

في التقييمات الداخلية، أظهرت GPT-Realtime-2 في وضع عالي نتائج أفضل بنسبة 15.2% من GPT-Realtime-1.5 على Big Bench Audio، وفي وضع الحد الأقصى جداً — أفضل بنسبة 13.8% على Audio MultiChallenge لاتباع التعليمات في الحوار.

"بعد ضبط الفشار، رأينا معدلات نجاح المكالمات تتحسن من 69% إلى 95%"،— هكذا تصف

Zillow الاختبارات الأولية لـ GPT-Realtime-2.

الترجمة والنسخ

النموذج الثاني، GPT-Realtime-Translate، يستهدف الحوار متعدد اللغات المباشر. يترجم الكلام مع تطور الحوار، مع الحفاظ على وتيرة المتحدث والمعنى حتى عندما يتحدث الناس بلهجة أو يقفزون بين المواضيع أو يستخدمون المصطلحات الخاصة بالصناعة. تسلط OpenAI الضوء بشكل خاص على حالات الاستخدام في الدعم والمبيعات عبر الحدود والتعليم والأحداث والوسائط ومنصات المؤلفين.

تختبر Deutsche Telekom النموذج لدعم العملاء متعدد اللغات، بينما تعرض Vimeo سيناريو حيث يتم ترجمة الفيديو التعليمي أثناء التشغيل.

النموذج الثالث، GPT-Realtime-Whisper، يعالج مهمة أكثر عملية ولكن مطلوبة جداً: تحويل الكلام إلى نص بسرعة. تضع OpenAI موضعها كأساس للترجمات والملاحظات من الاجتماعات ونسخ المحاضرات والبث المباشر والعملاء الذين يعملون بالصوت الذين يحتاجون إلى فهم مستمر لما يقوله المستخدمون.

في الوقت نفسه، تذكرنا الشركة بآليات الحماية: تستخدم واجهة Realtime API مصنفات نشطة، قد يتم إيقاف بعض الجلسات في حالة انتهاك القواعد، ويجب على المطورين إخبار المستخدمين بوضوح عندما يتحدثون مع ذكاء اصطناعي.

ماذا يعني هذا

تحاول OpenAI احتلال ليس فقط سوق نماذج الدردشة بل أيضاً الطبقة الأساسية لمنتجات الصوت. إذا كانت جودة الكمون حقاً تطابق المقاييس المعلنة، فإن الشركة تحصل على موضع قوي في مراكز الاتصالات وخدمات السفر والمنصات التعليمية والمساعدين الشركات، حيث يكون الحوار المستقر والترجمة بدون توقف والنص الذي يظهر في نفس لحظة تحدث المستخدم أكثر أهمية من العروض التوضيحية المثيرة.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…