Habr AI→ المصدر

Jitsi Meet: لماذا يتطلب النسخ النصي للسجلات الطبية الإلكترونية Jigasi وVosk

تبيّن أن النسخ النصي في Jitsi Meet ليس 'زرًا'، بل مكدسًا منفصلًا: ينضم Jigasi إلى المكالمة كمشارك، ويرسل الصوت إلى Vosk، ويحفظ النتيجة بعد انتهاء الجلسة…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
Jitsi Meet: لماذا يتطلب النسخ النصي للسجلات الطبية الإلكترونية Jigasi وVosk
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

يدعم Jitsi Meet النسخ، لكن في منتج حقيقي اتضح أنه لا يكون مفتاحاً في الواجهة، بل طبقة بنية تحتية منفصلة. في حالة ملء السجلات الطبية الإلكترونية تلقائياً بعد الاستشارات بالفيديو، تبين أن هذه الطبقة هي الأكثر تكلفة: كان لزاماً الجمع بين Jigasi و XMPP/SIP و Vosk والمعالجة اللاحقة بـ LLM.

البنية تحت الغطاء

الفكرة الأساسية لـ Jitsi تبدو بسيطة على السطح فقط. المكالمة الفيديوية نفسها يتعامل معها واجهة Jitsi Meet الأمامية، وخادم الوسائط Jitsi Videobridge، ومدير المؤتمرات Jicofo، وطبقة XMPP في Prosody. لكن النسخ لا يعيش داخل زر واحد في الواجهة.

Jigasi هو المسؤول — بوابة منفصلة تتصل بالغرفة كمشارك عادي، تستقبل الصوت من المتحدثين، وترسل البث إلى خدمة خارجية للتعرف على الكلام. هذا يخلق انطباعاً خاطئاً بالبساطة في البداية. لهذا السبب، تنتقل المهمة بسرعة من مستوى "ربط واجهة برمجية" إلى مستوى البنية التحتية.

لا يكفي تفعيل خيار في الواجهة فحسب، بل يجب تنسيق عدة خدمات واتصالات شبكية وخادم STT منفصل. في الحالة المحللة، كان هذا الخادم هو Vosk، يعمل عبر WebSocket. الطريقة نفسها مريحة للمعالجة غير المتزامنة بعد الاستشارة: النظام لا يحتاج للالتزام بتأخيرات زمنية صارمة في الوقت الفعلي، والنص الناتج يمكن تحليله بهدوء بعد انتهاء المكالمة.

حيث ينهار النظام

المشكلة الرئيسية أن النسخ له عدة نقاط فشل مستقلة على الفور. يجب أن تتطابق إعدادات Jigasi وعوامل واجهة Jitsi Meet الأمامية وتوفر خدمة STT في نفس الوقت. إذا تمت إعادة تكوين طبقة واحدة بشكل غير صحيح، غالباً لا يفشل النظام برسالة خطأ واضحة، بل ببساطة لا يعطي النتيجة المتوقعة: البوت لا يدخل الغرفة، أو الملف لا يُحفظ، أو يكون النص ضعيفاً جداً للاستخدام العملي. بدون مراجعة السجلات، من السهل الخلط بين هذه الأعطال والعشوائية.

"Jigasi هي بوابة SIP مع النسخ، وليس العكس".
  • حساب XMPP منفصل لـ Jigasi في Prosody: إذا كان هناك خطأ به، بوت النسخ لن يظهر في المؤتمر على الإطلاق؛
  • صلاحيات دليل النصوص: النصوص الجزئية وسيطة قد تمر، لكن الملف النهائي لن يُحفظ على القرص؛
  • اختيار نموذج STT: Vosk الأساسي يناسب المنتج البدائي، لكنه يتعامل بشكل أسوأ مع المصطلحات الطبية وأسماء الأدوية والجرعات؛
  • كشف نهاية الجلسة: Jigasi يكتب النص النهائي فقط عندما تكون الغرفة فارغة فعلاً، لكن خط الأنابيب اللاحق يحتاج إلى محفز موثوق للمعالجة.

دقة منفصلة هي فصل قنوات الحفظ وإرسال النتائج. مجموعة واحدة من العوامل مسؤولة عن حفظ النص النهائي على القرص بعد انتهاء الاستشارة، والأخرى عن إعادة إرسال الأجزاء الوسيطة للمشاركين عبر XMPP. بالنسبة لمنتج يملأ السجلات الطبية بأثر رجعي، من الأهم الحصول بموثوقية على الملف النهائي من عرض النصوص الجزئية في الوقت الفعلي. وإلا، فإن مرحلة المعالجة التالية ليس لديها شيء تنطلق منه، وكل الأتمتة تتعطل.

من النص إلى السجل الطبي

حتى بعد إعداد Jitsi بنجاح، المهمة لا تنتهي. مخرجات Jigasi هي حوار خام مع الطوابع الزمنية: الطبيب يطرح أسئلة، المريض يجيب، ثم تأتي التعيينات والتوصيات. بالنسبة للسجل الطبي، مثل هذا النص عديم الفائدة تقريباً في شكله الأولي، لأن النظام يحتاج ليس إلى الحوارات كما هي، بل إلى كيانات منظمة: الشكاوى، والسيرة المرضية للأعراض، والأدوية، والجرعات، وجدول الإعطاء، والإجراءات المقبلة.

بين التعرف على الكلام والسجل الطبي تبقى طبقة كبيرة أخرى من التحولات. لهذا السبب كانت طبقة أخرى ضرورية فوق STT — المعالجة بـ LLM. يقوم النموذج بتطبيع النص وتصحيح بعض أخطاء التعرف بناءً على السياق وتقسيم النتيجة إلى حقول متوافقة مع هياكل FHIR.

بعد ذلك، تذهب البيانات إلى نموذج واجهة أمامية حيث يتحقق الطبيب من السجل ويؤكده قبل الحفظ النهائي في السجل الطبي. مثل هذا التدخل البشري هنا ليس احتياطاً، بل متطلب إلزامي: في الحالة السريرية، لا يمكنك كتابة الأدوية والجرعات والتعيينات تلقائياً في السجل بدون مراجعة. هنا حيث يصبح حد النسخ "الرخيص" مرئياً.

إذا كان النموذج الأساسي يتعرف بشكل سيء على مفردات المجال، فإن بقية السلسلة تبدأ في إنفاق الموارد لتصحيح الأخطاء. بالنسبة لإصدار الإنتاج، تقترح نفسها نماذج Vosk الأثقل، محرك متخصص مثل Deepgram بملف تعريف طبي، أو مزيج من STT والتطبيع بـ LLM حيث يعوض نموذج اللغة أخطاء التعرف. وإلا، فإن تكلفة الأخطاء مرتفعة جداً بالفعل على مستوى السجل الطبي.

ماذا يعني هذا

قصة Jitsi Meet تظهر شيئاً بسيطاً: النسخ لمنتج ذكاء اصطناعي تطبيقي هو نظام فرعي منفصل، وليس ميزة تجميلية. بالنسبة للمنتج البدائي، ستعمل خطة غير متزامنة مع Jigasi و Vosk، لكن للإنتاج في الطب، يلزم ضبط دقيق لكل المكدس، وسجلات جيدة، والتحكم في إنهاء الجلسة، وطبقة تطبيع تحول المحادثة إلى بيانات مناسبة للسجلات الطبية. كلما كان المجال أكثر صرامة، كانت الإضاءة بأن كل شيء يحل برمز واحد في الواجهة أكثر تكلفة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…