أطلقت OpenAI GPT-Realtime-2 ونموذجين صوتيين آخرين عبر API
وسّعت OpenAI واجهة API بثلاثة نماذج صوتية: GPT-Realtime-2 المحدّث ونموذجين جديدين. وتتيح هذه النماذج للتطبيقات التعرّف على الكلام وتوليده وترجمة المحادثات في ال

أعلنت OpenAI عن توسع قدرات الصوت في واجهتها البرمجية — يحصل المطورون الآن على إمكانية الوصول إلى نموذج GPT-Realtime-2 المحدث وموديلين صوتيين جديدين للتعرف على الكلام وتوليفه وترجمته.
ثلاثة موديلات صوتية جديدة في واجهة برمجية
تمت إضافة ثلاثة موديلات إلى واجهة البرمجية: نموذج GPT-Realtime-2 المحدث (نسخة محسنة من الموديل الموجود) وموديلان جديدان تماماً. تم تصميمها لمهام مختلفة — التعرف على كلام المستخدم، وتوليف الإجابات بالصوت، وترجمة المحادثات بين اللغات في الوقت الفعلي. هذا يعني أن المطورين يمكنهم الآن دمج التفاعل الصوتي مباشرة في تطبيقاتهم دون استخدام خدمات خارجية للتعرف على الكلام وتوليفه. في السابق، كان من الضروري دمج عدة مزودي خدمات — واحد للتعرف، وآخر للتوليف، وثالث للترجمة. الآن كل شيء في مكان واحد.
ما يمكن للموديلات الجديدة أن تفعله
- التعرف على الكلام (speech-to-text) مع دعم لغات كثيرة
- توليف الكلام (text-to-speech) مع صوت طبيعي والنبرة المناسبة
- ترجمة المحادثات في الوقت الفعلي مع الحفاظ على السياق
- كمون منخفض للتطبيقات التفاعلية (streaming)
- تكامل عميق مع GPT-4 لفهم المعنى
تم تدريب الموديلات على كميات كبيرة من بيانات الصوت وتظهر نتائج جيدة باللغة الإنجليزية وكذلك في لغات أخرى. تم تحديث GPT-Realtime-2 — تحسينات في معالجة الكلام الطبيعي وفهم السياق وسرعة الاستجابة. سيحصل المطورون على أدوات لإنشاء تطبيقات تسمع المستخدم وتفهم ما يقوله وترد بالصوت. هذا مهم للمساعدات الصوتية ومراكز الاتصال والتطبيقات التعليمية والخدمات التفاعلية.
كيفية عمله عملياً
تخيل تطبيق تعليم اللغات. يتحدث الطالب باللغة الأجنبية. تسمع الواجهة البرمجية هذا (speech-to-text)، وترسل النص إلى GPT-4 للتحقق والتصحيح، ثم تصوت النتيجة بكلام طبيعي (text-to-speech). كل هذا يحدث في الوقت الفعلي. أو فكر في تطبيق مترجم: سائحة تتحدث بالروسية، الواجهة البرمجية تترجم في الوقت الفعلي وتصوتها بالإنجليزية. لا توقفات مثل Google Translate.
التوافر والمنافسة
في الوقت الحالي، الموديلات متاحة فقط عبر واجهة برمجية للمطورين. لن تظهر في ChatGPT أو تطبيقات استهلاكية أخرى من OpenAI (على الأقل ليس في المستقبل القريب). يسمح هذا لـ OpenAI بإطلاق قدرات جديدة للمتخصصين، وصقلها على تطبيقات حقيقية، ثم دمجها في المنتجات الاستهلاكية إذا لزم الأمر. ستكون أسعار الواجهة البرمجية أعلى من نماذج النصوص ولكن أقل من المنافسين (على سبيل المثال، Google Cloud Speech-to-Text). تتنافس OpenAI مع Google و Amazon Polly و Microsoft Azure Speech Services والمنصات السحابية الأخرى. واجهات البرمجية الصوتية هي مجال تنافسي حيث يهم كل ميلي ثانية من الكمون وكل نسبة من الدقة.
واجهة الصوت لم تعد غريبة — إنها تصبح المعيار للتطبيقات الحديثة.
ما يعنيه هذا
تصبح واجهة الصوت أكثر سهولة في الوصول. الآن يمكن لأي مطور إضافة التواصل الصوتي مع الذكاء الاصطناعي إلى تطبيقه دون تكامل مكلف للخدمات الخارجية. سيؤدي هذا إلى تسريع ظهور تطبيقات الذكاء الاصطناعي الصوتية في السوق وجعل التفاعل مع الخدمات أكثر طبيعية.