IEEE Spectrum AI→ المصدر

تفوقت AI من OpenAI على الأطباء في التشخيص — لكن العلماء يدعون إلى الحذر

أصابت LLM من OpenAI التشخيص في 82% من الحالات المستندة إلى قصص حقيقية من طب الطوارئ — أكثر من الأطباء (79% و70%). لكن الباحثين يحذرون: لا يوجد معيار موحد للتقيي

تفوقت AI من OpenAI على الأطباء في التشخيص — لكن العلماء يدعون إلى الحذر
المصدر: IEEE Spectrum AI. كولاج: Hamidun News.
◐ استمع للمقال

لقد تفوق نموذج اللغة من OpenAI على الأطباء في دقة التشخيص على بيانات الطوارئ الحقيقية للمرة الأولى. تم نشر البحث في مجلة Science في 30 أبريل.

ما الذي أظهرته الدراسة

حللت نموذج o1-preview من OpenAI السجلات الطبية من 76 حالة حقيقية في قسم الطوارئ. في مراحل مختلفة من العلاج—عند الدخول، بعد الفحص الطبي، بعد النقل إلى قسم آخر—قام النموذج بوضع التشخيصات بالتوازي مع طبيبين. وخمّن بشكل أكثر صحة: في المرحلة النهائية، 82% من التشخيصات الصحيحة مقابل 79% و70% للأطباء. بشكل مثير للاهتمام، أظهر كل من البشر والنموذج نتائج أفضل عندما كان هناك مزيد من المعلومات. لكن الذكاء الاصطناعي حافظ على ميزة في جميع المراحل، حتى مع البيانات غير الكاملة.

  • 82% من دقة التشخيص مقابل 79% و70% للأطباء
  • تم الاختبار على سجلات حقيقية للطوارئ
  • قام النموذج بتحليل مجموعات كاملة من التفاصيل
  • حسّن النتائج مع كل معلومة جديدة

لكن الأطباء حذرون

يسارع مؤلفو الدراسة إلى التوضيح: الذكاء الاصطناعي لا يحل محل الأطباء. "لا أعتقد أن نتائجنا تعني أن الذكاء الاصطناعي سيزيح الأطباء عن الطريق"، كما يقول المؤلف المشارك Arjun Manrai من كلية الطب بجامعة هارفارد. يضيف زميله Adam Rodman، مدرس الطب في بوسطن: "النتائج رائعة، لا تسيئوا الفهم، لكنني قلق قليلاً بشأن كيفية استخدامها." المشكلة الرئيسية هي عدم وجود معيار موحد لتقييم LLMs في المهام الطبية. يعتبر بعض الباحثين نجاحاً إذا كان النموذج يحدد 5 من 7 تشخيصات محتملة. يرى آخرون هذا على أنه فشل كامل. يتم تقييم النتيجة نفسها بطرق مختلفة.

المشكلة مع موثوقية الروبوتات الحوارية

يُظهر البحث المتوازي أن الروبوتات الحوارية غالباً ما تكذب بشأن الأسئلة الطبية. يحتوي ما يقرب من نصف الإجابات على أخطاء: مصادر مختلقة، نصائح غير دقيقة، عرض واثق للأكاذيب. يبدو النموذج مقنعاً بنفس القدر سواء كان صحيحاً أم لا.

"يتم استخدام هذه النماذج كل يوم، وهناك مخاطر معينة لا يقيسها أحد ولا يخففها"، —

Arya Rao، Harvard

بالنسبة للطبيب، تكون المهمة أكثر تعقيداً: عندما يقدم النموذج استشارة، يتعين على الطبيب أن يفهم بسرعة ما إذا كانت صحيحة أم أنها هلوسة. بالطبع، سيفهم الطبيب بشكل أفضل أي المعلومات مهمة. لكن اكتشاف الأكاذيب في إجابة مقنعة هو تحدٍ.

ماذا يعني هذا

أطلقت OpenAI بالفعل ChatGPT للأطباء وللرعاية الصحية. تتحرك التكنولوجيا بسرعة أكبر مما تستطيع الطب أن ينظمها ويختبرها. هناك حاجة إلى تجارب سريرية حقيقية وعمليات عمل واضحة، حيث يستخدم الطبيب الذكاء الاصطناعي كمساعد في الاستشارات وليس كإجابة نهائية. سرعة الابتكار مهمة، لكن المسؤولية مهمة أكثر.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…