MarkTechPost→ المصدر

وضع WebSocket من OpenAI يغيّر قواعد اللعبة للـ AI الصوتي

أطلقت OpenAI وضع WebSocket لـ Realtime API الخاص بها، ما يخفض زمن التأخير بشكل جذري في تطبيقات AI الصوتية. في السابق، كان إنشاء وكيل صوتي يتطلب سلسلة من ثلاث…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
وضع WebSocket من OpenAI يغيّر قواعد اللعبة للـ AI الصوتي
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

زمن الاستجابة هو العدو الرئيسي لأي واجهة صوتية. فاصل زمني مدته ثانية واحدة بين عبارتك وردّ مساعد AI يدمّر فوراً الإحساس بحوار حي ويحوّل التفاعل إلى انتظار مرهق. ويبدو أن OpenAI قررت مواجهة هذه المشكلة مباشرة عبر تقديم وضع WebSocket ضمن Realtime API الخاصة بها — وهو حل تقني قد يغيّر بشكل جذري بنية تطبيقات AI الصوتية.

لفهم حجم هذا التغيير، يجدر النظر إلى الطريقة التي كانت تعمل بها وكلاء AI الصوتيون حتى الآن. كانت البنية التقليدية تشبه خط تجميع يتألف من ثلاث محطات منفصلة. أولاً، كان صوت المستخدم يُرسل إلى نموذج للتعرّف على الكلام (Speech-to-Text) يحوّل الصوت إلى نص.

ثم يُمرَّر هذا النص إلى نموذج لغوي كبير مثل GPT لتوليد الرد. وأخيراً، يُرسل الرد النصي إلى نظام لتوليد الكلام (Text-to-Speech) لقراءته صوتياً. وكل انتقال من هذه الانتقالات يعني طلب API منفصلاً، واتصال شبكة منفصلاً، وطابوراً منفصلاً على الخادم.

وقد شبّه مهندسون في القطاع هذه المنظومة بدقة بآلة روب غولدبرغ — آلية معقّدة على نحو مفرط لتنفيذ مهمة تبدو بسيطة. وكان إجمالي زمن الاستجابة يصل بسهولة إلى ثانية ونصف أو ثانيتين، وقد يكون أعلى من ذلك في فترات الذروة.

يقدّم وضع WebSocket من OpenAI مقاربة مختلفة جذرياً. فبدلاً من ثلاثة طلبات HTTP متتابعة، ينشئ العميل اتصال WebSocket واحداً دائماً مع الخادم. ومن خلال هذا الاتصال، يُنقل الصوت في الاتجاهين على هيئة تدفق مستمر. يبدأ المستخدم بالكلام — وتكون البيانات الصوتية قد انطلقت بالفعل إلى الخادم. ويبدأ النموذج في توليد الرد — ويبدأ الصوت المُركَّب بالفعل بالعودة إلى العميل، حتى لو لم يكتمل التوليد بعد. وهذا ليس مجرد تحسين لخط المعالجة القائم، بل استبدال كامل له بنموذج متعدد الوسائط واحد يستقبل الصوت كمدخل ويعيد الصوت كمخرج، من دون المرور بتمثيلات نصية وسيطة.

أصبح ذلك ممكناً تقنياً بفضل عدة عوامل. أولاً، أصبحت نماذج OpenAI نفسها متعددة الوسائط بطبيعتها — إذ يستطيع GPT-4o وخلفاؤه التعامل مع الصوت مباشرة من دون تفريغ نصي وسيط. ثانياً، يدعم بروتوكول WebSocket، بخلاف HTTP التقليدي، اتصالاً full-duplex: يمكن نقل البيانات في الاتجاهين في الوقت نفسه، وهو ما يناسب محاكاة الحوار الطبيعي تماماً. ثالثاً، يتيح التوليد المتدفق بدء تشغيل الرد قبل أن ينتهي النموذج من صياغته — تماماً كما يبدأ الإنسان بسماع محدّثه من المقطع الصوتي الأول، لا بعد أن يُكمل الجملة كلها.

يصعب المبالغة في تقدير تبعات ذلك على القطاع. فقد بقيت الواجهات الصوتية حتى الآن منتجاً متخصصاً إلى حد كبير بسبب مشكلة زمن الاستجابة تحديداً. Siri وAlexa وGoogle Assistant — كلها تعاني من توقفات محسوسة تجعل الحديث غير طبيعي. وخفض زمن الاستجابة إلى مستوى قريب من الزمن الحقيقي يفتح الباب أمام سيناريوهات جديدة تماماً. الطب عن بُعد مع مساعد AI يستجيب فوراً لكلمات المريض. تطبيقات تعليمية يجري فيها معلّم AI حواراً حياً من دون توقفات مزعجة. شخصيات NPC في الألعاب ترد بالسرعة نفسها التي يرد بها ممثل حي. مراكز اتصال مؤسسية يكون فيها مشغّل AI غير قابل للتمييز عن الإنسان من حيث سرعة الاستجابة.

ومع ذلك، هناك وجه آخر للمسألة. فالاتصال الدائم عبر WebSocket يستهلك موارد خادم أكثر من استدعاءات API المنفصلة، ما يعني أن الكلفة على المطورين قد تكون أعلى. وإضافة إلى ذلك، يزداد الاعتماد على مزوّد واحد — OpenAI: فبعدما كان ممكناً سابقاً الجمع بين أفضل حلول STT وLLM وTTS من شركات مختلفة، أصبح الـ stack بأكمله الآن محصوراً داخل منظومة واحدة. وهذه مفاضلة كلاسيكية بين السهولة والمرونة، وليست كل الفرق ستختار الأولى.

ومن المهم أيضاً ملاحظة سياق المنافسة. فـ Google تطوّر بنشاط قدراتها المتعددة الوسائط في الزمن الحقيقي ضمن مشروع Gemini. كما تعمل ElevenLabs وغيرها من الشركات الناشئة في مجال توليد الكلام على خفض زمن الاستجابة. لكن لدى OpenAI ميزة استراتيجية: فالشركة تتحكم في النموذج اللغوي والبنية التحتية للتوصيل معاً، ما يتيح لها تحسين المسار الكامل للبيانات من ميكروفون المستخدم إلى مكبر الصوت.

وضع WebSocket من OpenAI ليس مجرد تحديث تقني لواجهة API. إنه إشارة إلى أن عصر روبوتات الدردشة النصية يفسح المجال تدريجياً لعصر وكلاء AI الصوتيين. والحاجز الرئيسي على هذا الطريق — زمن الاستجابة — بدأ ينهار. والسؤال الآن لم يعد ما إذا كانت الواجهات الصوتية الطبيعية حقاً ستظهر، بل مدى السرعة التي ستصبح بها جزءاً عادياً من الحياة اليومية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…