النماذج

التعرف على الكلام (Speech Recognition)

التعرف على الكلام (ASR) هو تقنية تحول الصوت المكلوم إلى نص مكتوب، باستخدام نماذج التعلم الآلي المدربة على مجموعات كبيرة من الكلام لنسخ كلماتها وجملها بدقة في الوقت الفعلي أو من التسجيلات.

التعرف التلقائي على الكلام (ASR) هو تخصص تعلم الآلة وتكنولوجيا البرمجيات المرتبطة به التي تنسخ مدخل الصوت المكلوم إلى نص. يجب على أنظمة ASR التعامل مع التباينية الصوتية—الضوضاء الخلفية وجودة الميكروفون وصوتيات الغرفة—وكذلك تباينية المتحدث بما في ذلك اللهجات وأساليب الكلام والخصائص الصوتية، بينما تحل تسلسلات غامضة من الناحية الصوتية باستخدام السياق اللغوي لإنتاج نسخ دقيقة.

يهيمن ASR الحديث على معماريات عصبية من طرف إلى طرف. Whisper من OpenAI (صدر في سبتمبر 2022) شعبّ نهج محول encoder-decoder مدرب على ما يقارب 680,000 ساعة من الصوت متعدد اللغات المشرف عليه بشكل ضعيف تم جمعه من الويب، حيث حقق أداء قوية متعددة اللغات دون ضبط دقيق خاص باللغة. يستخدم البث ASR في الوقت الفعلي—المطلوب لمساعدات الصوت والترجمة الحية—معماريات بها تصنيف زمني اتصالي (CTC) أو آليات انتباه البث التي تصدر نسخ جزئية عند وصول الصوت بدلاً من الانتظار لإكمال النطق. غالباً ما تقوم الأنظمة الإنتاجية بمعالجة لاحقة لمخرجات ASR الخام باستخدام نموذج لغوي لتصحيح الأخطاء باستخدام سياق نصي أوسع.

يعتبر ASR شرطاً أساسياً لواجهات الصوت لأجهزة الكمبيوتر والأجهزة المحمولة والترجمة الفورية للبث والإجراءات القانونية وخدمات نسخ الاجتماعات وتحليلات مراكز الاتصالات والبحث الصوتي والتفاعل باللغة المنطوقة مع وكلاء الذكاء الاصطناعي المحادثة. انخفضت معدلات الأخطاء الكلمات في اللغات ذات الموارد الجيدة بشكل كبير على مدى العقد الماضي، مما جعل ASR دقيقاً بما يكفي لسير عمل النسخ الحرجة للمهمة في السياقات الطبية والقانونية والمالية.

اعتباراً من منتصف 2025، اشتملت أنظمة ASR الرائدة على OpenAI Whisper (متغيرات large-v3 والمحسّنة turbo) و Google Speech-to-Text (بما في ذلك نموذج Chirp 2) و Microsoft Azure Speech Services و Deepgram Nova-2 و نموذج Universal من AssemblyAI. في معايير اللغة الإنجليزية القياسية مثل مجموعة الاختبار النظيفة LibriSpeech، حققت أفضل النماذج معدلات أخطاء كلمات بنسبة 2-3٪ أو أقل. كان الدعم متعدد اللغات الذي يشمل 90 لغة أو أكثر شائعاً بين موفري الخدمات الرئيسيين، وأصبح البث النسخ في الوقت الفعلي مع كمون أقل من 500 ميلي ثانية معياراً تجارياً في منصات الاجتماعات وأدوات تحليلات مراكز الاتصالات.

مثال

تدمج شركة الخدمات القانونية نظام ASR بث في منصة المؤتمرات الفيديو الخاصة بهم لنسخ إيداعات العملاء في الوقت الفعلي، مما ينتج نسخاً مطبوعة مع الطوابع الزمنية وقابلة للبحث يمكن للمحامين مراجعتها فوراً بعد كل جلسة بدلاً من انتظار الأيام لخدمة النسخ البشرية.

مصطلحات مرتبطة

تحويل النص إلى كلام (Text-to-Speech)نموذج متعدد الأنماط (Multimodal Model)Transformer

آخر الأخبار حول الموضوع

أظهر STM32N6 من STMicroelectronics إمكانية التعرف على الكلام محليًا من دون سحابة عند 0.2 واط2026-05-02 انتقل Rutube من تجربة Whisper إلى منصة الترجمة والتعرف على الكلام الخاصة به2026-04-29 نظام التعرف على الكلام الخاص: كيف توقف إطعام السحابة واستعد الخصوصية2026-02-04 الشبكة العصبية وتحديد البرامج بالراديو: التعرف على الكلام في GNU Radio بنفسك2026-01-22

← المسرد