TNW→ المصدر

قدّمت OpenAI GPT-Realtime-2 مع الاستدلال في حوار مباشر

أطلقت OpenAI ثلاثة نماذج صوتية جديدة: GPT-Realtime-2 مع استدلال من المستوى 5، ونموذج ترجمة يدعم 70+ لغة، وstreaming Whisper للنسخ في الوقت الفعلي. اعتمدت الشركة

قدّمت OpenAI GPT-Realtime-2 مع الاستدلال في حوار مباشر
المصدر: TNW. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت OpenAI ثلاث نماذج صوتية جديدة لواجهة برمجة التطبيقات الخاصة بها، مما يوسع قدرة المطورين على دمج التفكير من المستوى الخامس (فئة GPT-5) مباشرة في التطبيقات الصوتية وواجهات الصوت. خطوة OpenAI هي خطوة أخرى في الصراع على هيمنة سوق الذكاء الاصطناعي.

GPT-Realtime-2: التفكير في الوقت الفعلي

يجلب GPT-Realtime-2 قدرات الاستدلال المنطقي المعقد إلى الحوار الصوتي المباشر للمرة الأولى. على عكس مساعدات الصوت البسيطة، يفهم النموذج الجديد الدقائق السياقية للمحادثة ويمكنه التعامل مع المهام متعددة الخطوات دون فقدان المعنى. هذا مهم للتطبيقات التي تتطلب التشاور والتخطيط والتحليل أو الدعم الفني — حيث لا تكفي الإجابات البسيطة القائمة على النماذج. يقوم النموذج بمعالجة الكلام في الوقت الفعلي، مما يسمح للمستخدمين بالتحدث بحرية دون انتظار توقف معالجة. تصل الإجابات بسرعة طبيعية، مما يخلق انطباع الحوار مع شخص حقيقي.

الترجمة متعددة اللغات والنسخ

أطلقت OpenAI نموذج ترجمة منفصل يدعم أكثر من 70 لغة إدخال. هذا يسمح للمطورين بإنشاء تطبيقات عالمية دون الحاجة إلى تكرار النماذج لكل لغة — نموذج واحد يغطي معظم سكان العالم. بالإضافة إلى ذلك، تم الإعلان عن نسخة بث من Whisper للنسخ. تعالج الصوت في الوقت الفعلي وتسلم النص مع وصول الصوت. هذا حاسم للتطبيقات مثل مكالمات الفيديو والمترجمين المباشرين ومساعدات الصوت، حيث يؤثر التأخير مباشرة على تجربة المستخدم.

ثلاثة مكونات رئيسية:

  • GPT-Realtime-2 للتفكير الصوتي والحوار الديناميكي
  • نموذج ترجمة يدعم 70+ لغة إدخال
  • بث Whisper لنسخ الصوت منخفض الكمون

استراتيجية التسعير: الاستيلاء على السوق

وضعت OpenAI أسعاراً عدوانية على النماذج الجديدة، مما يجعلها في متناول فرق المطورين الصغيرة والشركات الناشئة. الشركة تستهدف بوضوح الاستيلاء السريع على حصة السوق في مجال تطبيقات الذكاء الاصطناعي الصوتي. يتناقض هذا النهج مع موضع نماذج النصوص، حيث تحافظ OpenAI على موضع سعر متميز. الاستثمار في إمكانية الوصول إلى النماذج الصوتية يشير إلى أن OpenAI ترى الصوت كحدود التفاعل مع الذكاء الاصطناعي التالية. من يستولي على المطورين أولاً في هذا المجال سيكون له ميزة تنافسية قوية.

ماذا يعني هذا

تنتقل واجهات الذكاء الاصطناعي الصوتي من المرحلة التجريبية إلى جزء عملي من مكدس المطورين. الأسعار الأكثر سهولة في الوصول تقلل حاجز الدخول — الآن يمكن للشركة الناشئة أن تدمج ذكاء اصطناعي صوتي في تطبيقها دون استثمار كبير. هذا سيسرع ظهور تطبيقات صوتية جديدة في السوق.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…