TechCrunch→ المصدر

أطلقت Cohere نموذجًا مفتوح المصدر للنسخ الصوتي — 2 مليار معلمة و14 لغة

أطلقت Cohere نموذجًا صوتيًا مفتوح المصدر مخصصًا للنسخ الصوتي. وبحجم لا يتجاوز 2 مليار معلمة، صُمم للتشغيل على GPU استهلاكي عادي — من دون عتاد خوادم باهظ…

معالج بواسطة الذكاء الاصطناعي من TechCrunch؛ بتحرير Hamidun News
أطلقت Cohere نموذجًا مفتوح المصدر للنسخ الصوتي — 2 مليار معلمة و14 لغة
المصدر: TechCrunch. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت Cohere نموذج مفتوح المصدر لنسخ الكلام. على عكس معظم المنافسين، يزن النموذج 2 مليار معامل فقط — وهذا مقصود، للسماح بتشغيله على وحدة معالجة رسومات عادية للمستهلكين دون الحاجة إلى مجموعات خوادم مكلفة أو واجهات برمجية سحابية. تضع الشركة الأداة الجديدة كأداة للمطورين الذين يرغبون في نشر النسخ على أنظمتهم الخاصة.

Cohere هي شركة كندية متخصصة في الذكاء الاصطناعي تأسست في 2019 من قبل خريجي Google Brain. حتى الآن، كانت معروفة بشكل أساسي كموردة لنماذج اللغة للمؤسسات: يتنافس نموذج Command الرئيسي مع GPT-4 و Claude في قطاع الشركات، ويستخدم نظام التضمين Embed في آلاف تطبيقات الإنتاج للبحث الدلالي. أدوات الكلام هي اتجاه جديد للشركة، وفوراً مع التركيز على التخصص: بدلاً من حل متعدد الأنماط عام، أطلقت أداة معدة لمهمة واحدة فقط.

يشهد سوق التعرف التلقائي على الكلام تحولاً. تاريخياً، كان يسيطر عليه عمالقة التكنولوجيا: Google Speech-to-Text و Amazon Transcribe و Microsoft Azure Speech. جميعها تعمل بنموذج سحابي — يذهب الصوت إلى خوادم المزود، يتم معالجته هناك، ثم يعود النص. هذا ينشئ مشكلتين: النفقات المتزايدة مع الأحجام الكبيرة والمخاوف المتعلقة بالخصوصية، الحرجة لقطاعات معينة. يكسب المزودون الكبار أموالهم على النطاق، لكن بالنسبة للشركات الناشئة والشركات المتوسطة، تصبح تكلفة النسخ السحابي مصدر إنفاق كبير بسرعة.

حدث نقطة تحول في 2022 عندما أطلقت OpenAI Whisper — نموذج نسخ مفتوح المصدر يمكن تشغيله محلياً. غيّر Whisper السوق: انتقل المطورون بكثرة إلى النسخ المستضاف ذاتياً، وظهرت متغيرات سريعة مثل faster-whisper بناءً على CTranslate2 والإصدارات المضغوطة المقطرة. ومع ذلك، لدى Whisper قيود معروفة. تتطلب الإصدارات الكبيرة وحدة معالجة رسومات بذاكرة 8–10 GB من VRAM، والنموذج نفسه لم يحصل على تحديثات ملموسة منذ إطلاق Large v3 في 2023. كان السوق ينتظر بديل جدير. وهنا يفتح المجال لنموذج Cohere.

2 مليار معامل — هذا ليس حلاً وسطاً، بل رهان مقصود على إمكانية الوصول. للمقارنة: Whisper Large v3، الذي يعتبر معيار الجودة، يحتوي على 1.5 مليار معامل ويتطلب 8 GB من VRAM كحد أدنى بدقة نصف. نموذج Cohere أكبر قليلاً من حيث عدد المعاملات، لكن، حكماً بالتوافق المعلن مع وحدات معالجة الرسومات الاستهلاكية، يتم تحسينه بشكل أفضل للعمل بدون مركز بيانات. يغطي دعم 14 لغة معظم سيناريوهات الإنتاج للشركات العالمية.

حالة المصدر المفتوح هي أيضاً مسألة خصوصية. لا يمكن للشركات في القطاعات المالية والطبية والقانونية والحكومية ببساطة إرسال محادثات وتسجيلات حساسة إلى خوادم موردين خارجيين. تتطلب المتطلبات التنظيمية HIPAA و GDPR والقانون 152-ФЗ الروسي والقوانين المماثلة السيطرة على معالجة البيانات. يزيل النسخ المستضاف ذاتياً هذا الحاجز كلياً: يتم معالجة الصوت محلياً، لا يذهب شيء إلى الخارج.

حتى الآن، بقي الخيار الناضج الوحيد لمثل هذه السيناريوهات هو Whisper مع قيوده الإنتاجية. نشر أداة مفتوحة هو أيضاً حركة استراتيجية من Cohere. ينجذب نموذج مجاني للمطورين إلى نظام Cohere البيئي، يشكل اعتماداً مستقبلياً على منتجات سحابية للمؤسسات عند توسع العمل، وينبني سمعة كشريك يستحق الثقة.

هذه نفس المنطق الذي تستخدمه Meta مع Llama و Mistral مع نماذجها المفتوحة: أولاً بناء الثقة من خلال الانفتاح، ثم تحقيق العائد من خلال الحلول الموجهة للمؤسسات. ستظهر معايير مستقلة في الأسابيع القادمة. في الوقت الحالي، لا يزال غير واضح كيفية تصرف النموذج تحت الضوضاء الشديدة والنبرات الصعبة والمصطلحات المتخصصة.

إذا ثبتت الدقة قابلة للمقارنة مع Whisper Large v3، فسيغير هذا بشكل كبير توازن القوى في قطاع النسخ مفتوح المصدر. يجب على المطورين الذين يبنون أنظمة نسخ الاجتماعات ومراكز الاتصالات وأدوات التوثيق الطبي أو ملاحظات الكلام إضافة نموذج Cohere إلى قائمة المرشحين للاختبار.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…