xAI تطلق واجهات برمجية Grok منفصلة للتعرف على الكلام وتركيبه لمطوري الشركات
أطلقت xAI واجهات برمجية Grok منفصلة للتعرف على الكلام وتركيبه، وتبيع مكدس الصوت الخاص بها كبنية تحتية مستقلة للمرة الأولى. يدعم STT أكثر من 25 لغة ووضعي البث…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت xAI واجهات برمجية منفصلة لتحويل النص إلى كلام وتحويل الكلام إلى نص، وحولت بذلك قدرات الصوت في Grok من منتج داخلي إلى خدمة بنية تحتية مستقلة للمطورين. الخدمتان المعنيتان هما Speech-to-Text و Text-to-Speech، اللتان تعملان على نفس الأساس التكنولوجي المستخدم بالفعل في Grok المحمول وسيارات Tesla ودعم Starlink. بالنسبة لـ xAI، هذا ليس مجرد ميزة إضافية في واجهة برمجية، بل هو دخول مباشر إلى سوق منصات الصوت، حيث استقرت بالفعل شركات مثل ElevenLabs و Deepgram و AssemblyAI.
من الناحية العملية، تركز xAI بشكل أساسي على سيناريوهات المؤسسات. تدعم واجهة Speech-to-Text المعالجة الدفعية والنسخ الفوري عبر البث المباشر. وفقاً لتوثيق xAI، يكلف الوضع الدفعي 0.
10 دولار لكل ساعة من الصوت، بينما يكلف وضع البث 0.20 دولار. تعمل الخدمة مع أكثر من 25 لغة ويمكنها ليس فقط تحويل الكلام إلى نص خام، بل أيضاً تنظيم النتيجة: وضع الأرقام والتواريخ والعملات والعناصر الأخرى في شكل مكتوب صحيح.
بالنسبة للفرق التي تبني مراكز الاتصالات والمساعدات الصوتية وخدمات نسخ الاجتماعات أو أتمتة الهاتفية، هذا أهم مما قد يبدو للوهلة الأولى: بعد هذا التطبيع، يسهل فهرسة النص وتحليله وإرساله إلى سلاسل LLM. تتضمن مكون STT أيضاً مجموعة من الميزات المصممة بوضوح لأحمال العمل في الإنتاج. تؤكد xAI على دعم 12 صيغة صوتية وملفات تصل إلى 500 ميجابايت والطوابع الزمنية على مستوى الكلمة وتقسيم المتحدثين وضع القنوات المتعددة لتسجيل القنوات.
بعبارة أخرى، الخدمة مصممة ليس فقط للملاحظات الصوتية البسيطة بل أيضاً للمفاوضات والبودكاست ومكالمات العملاء والتسجيلات متعددة القنوات المعقدة. تؤكد xAI بشكل منفصل على جودة التعرف على الكيانات في المحادثات الهاتفية—الأسماء والتواريخ وأرقام الحسابات والتفاصيل الحساسة الأخرى التي تعرض عادة دقة الأنظمة ASR التقليدية للخطر. الجزء الأقوى من الإعلان هو التموضع السعري والجودة مقابل المنافسين.
وفقاً لمعايير xAI الداخلية، أظهر Grok STT معدل خطأ بنسبة 5.0% في مهمة التعرف على الكيانات في المحادثات الهاتفية مقابل 12.0% لـ ElevenLabs و13.
5% لـ Deepgram و21.3% لـ AssemblyAI. على مجموعة البيانات العامة، تبلغ xAI عن معدل خطأ الكلمات بنسبة 6.
9%. يجب فهم هذه الأرقام في الوقت الحالي كتصريحات داخلية من الشركة نفسها وليس كتقييم مستقل من الصناعة، لكن حتى بهذا الشكل الرسالة واضحة: تريد xAI بيع ليس "واجهة برمجية صوتية أخرى" بل نظام أكثر دقة للاتصالات التجارية حيث تكون الأسماء والمبالغ والتواريخ والمصطلحات القانونية حاسمة. تكمل الخدمة الثانية، Text-to-Speech، هذه الإستراتيجية وتُعرض أيضاً كأداة للمطورين وليست مجرد تأثير صوتي توضيحي.
سعّرت xAI التوليف بـ 4.20 دولار لكل مليون حرف وفتحت الوصول إليه من خلال واجهة برمجية REST قياسية و WebSocket للتوليد الفوري. يتضمن TTS خمس أصوات ودعم 20 لغة وعدة تنسيقات إخراج—من MP3 القياسي إلى PCM و mu-law و A-law الهاتفي.
الميزة الأساسية هي علامات الكلام: يمكن للمطور إدراج علامات التحكم في النص مثل الهمس والإيقاف الطويل والضحك والنبرة أو تبطيء السرعة. هذا يجعل واجهة البرمجية مناسبة للوكلاء الصوتيين وسيناريوهات IVR والمنتجات التعليمية وتنسيقات الوسائط حيث التوليف الجاف و "الآلي" لم يعد يرضي السوق. من المهم أيضاً الطريقة التي تهيكل بها xAI مجموعة الصوت الخاصة بها.
في السابق، روجت الشركة لـ Grok Voice وواجهة برمجية وكيل الصوت كواجهة محادثة موحدة. الآن تبيع STT و TTS بشكل منفصل، مما يسمح للشركات ببناء مكدسها الخاص: التعرف على تدفق الصوت الوارد بشكل منفصل، وتوليف الإجابات بشكل منفصل، والاحتفاظ بمنطق LLM داخلياً أو الاتصال من خلال خدمة أخرى. بالنسبة لمطوري المؤسسات، هذا يقلل بشكل كبير من حاجز التكامل، لأنه لا حاجة لتبني مكدس الصوت الكامل من xAI دفعة واحدة.
الخلاصة مباشرة: تحاول xAI احتلال موضع ليس فقط في سباق chatbots بل أيضاً في الجزء الأكثر تطبيقياً من البنية التحتية الصوتية. إذا تم التأكد من الأسعار والكمونات والجودة المعلنة في النشر الفعلي، تتمتع الشركة بفرصة الدخول بسرعة إلى حالات الاستخدام في المؤسسات—من دعم العملاء إلى المساعدات الصوتية الداخلية. ومع ذلك، سيحكم السوق في النهاية ليس على الإعلان بل على استقرار واجهة البرمجية وشفافية الحدود والجودة عبر لغات مختلفة وكيفية عمل هذا النظام خارج عروض xAI الخاصة والمعايير الداخلية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.