Habr AI→ المصدر

ChatGPT تفوق في التشخيص في خمس حالات، لكنه فشل في خطة العلاج

نجح ChatGPT في خمس حالات من أصل خمس على مستوى التشخيص الأساسي في التجربة، بما فيها MGUS والانحلال العضلي الناجم عن العقاقير الخافضة للكوليسترول. إلا أن…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
ChatGPT تفوق في التشخيص في خمس حالات، لكنه فشل في خطة العلاج
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

انتهت التجربة التي كان متوقعاً أن يرتكب فيها ChatGPT على الأقل خطأ تشخيصي واحد بنتيجة غير متوقعة للمؤلفين: حيث حدّد النموذج التشخيص الرئيسي بشكل صحيح في جميع الحالات الطبية الخمس. لكن الانتصار على مستوى صياغة التشخيص لم يتحول إلى انتصار شامل في المقارنة السريرية. أصبحت الفجوة الأكثر وضوحاً واضحة فيما بعد — في خطة العمل العملية بعد الإجابة: ما الفحوصات المطلوبة قبل بدء العلاج، وإلى أي متخصصين يتم إحالة المريض، وما المؤشرات المستهدفة المراد مراقبتها، وموعد تكرار الاختبارات.

كان هذا هو المرحلة التي خسر فيها ChatGPT في كثير من الأحيان أمام خدمة MedAssist المتخصصة. تضمنت المقارنة خمس حالات: متلازمة التمثيل الغذائي، قصور الدرقية تحت السريري، فترة ما حول انقطاع الطمث، MGUS والنخر العضلي الناجم عن الستاتين. في جميع الحالات، وقع ChatGPT على التشخيص الرئيسي، وهذا بحد ذاته ملفت للنظر بالنسبة لنموذج لغة موحد.

يعترف المؤلفون بأنهم توقعوا قبل إجراء الاختبار حدوث خطأ واحد على الأقل خطير، لكن هذا لم يحدث. ومع ذلك، في الطب، التشخيص نفسه هو فقط جزء من المهمة. الخطوة التالية لا تقل أهمية: هل من الآمن بدء العلاج، وأي الأعلام الحمراء يجب التحقق منها مقدماً، وما الاختبارات التوضيحية المطلوبة لتجنب تفويت موانع الاستطباب أو المخاطر المرتبطة.

هنا أصبح الفارق بين النماذج منهجياً. في أربع حالات روتينية، أجاب ChatGPT بشكل أسوأ على سؤال ما الذي يجب أن يفعله المريض في الأسبوعين المقبلين. لم يكن الأمر يتعلق بصياغة جميلة، بل بمنطق سريري تطبيقي: على سبيل المثال، التذكير بـ PSA قبل العلاج البديل بالتستوستيرون، والتصوير الثديي قبل وصف العلاج الهرموني لسن اليأس، والمستويات المستهدفة للمؤشرات وأوقات إعادة الفحص.

في حالة النخر العضلي، كان تفسير نسبة AST إلى ALT مهماً أيضاً — تفصيلة تؤثر على فهم أسباب التغييرات في نتائج الاختبارات والتكتيك الطبي اللاحق. لكن للمقارنة كان هناك أيضاً مثال عكسي. في حالة MGUS، اعتلال الجلوبيولين أحادي النسيلة ذو الأهمية غير المحددة، كان MedAssist هو الذي تبين أنه أضعف.

حسب ChatGPT بوضوح نسبة الألبومين إلى الغلوبيولين وأدرج بشكل منفصل الاختبارات التأكيدية التي يجب على المريض أن يحضرها إلى أخصائي أمراض الدم. يكتب المؤلفون مباشرة أن خدمتهم لم تفعل أياً منهما، وهذا هو السبب في أن تحليلهم لهذه الحالة كان الأكثر تفصيلاً. مثل هذه الحلقة مهمة ليس فقط كخسارة محلية، بل كتذكير: المنتج المتخصص لا يحصل على ميزة تلقائياً فقط لأنه تم إنشاؤه لمهمة ضيقة.

يلاحظ المؤلفون على حدة تضارباً محتملاً في المصالح: تم إعداد النص من قبل الفريق الذي يطور MedAssist، وهي إحدى الخدمتين المقارنتين. لا يحاولون إخفاء هذا ويؤكدون أنهم ثبتوا الطريقة مقدماً، ونشروا إجابات كلا الخدمتين حرفياً، وحللوا حالتهم الفاشلة بالتفصيل بدلاً من مجرد الإشارة إليها. هذا لا يزيل الأسئلة حول الحيادية الكاملة، لكنه يجعل المادة أكثر فائدة من العروض التسويقية النمطية حيث يتم عرض الأمثلة المريحة فقط.

بالنسبة للقارئ، ما هو الأكثر قيمة هنا ليس النتيجة حسب الحالات، بل شفافية حول أين بالضبط تكون النماذج قوية وأين تبدأ في الأخطاء في الحلول التطبيقية. الاستنتاج الرئيسي من هذا الاختبار بسيط إلى حد ما: يمكن لنماذج اللغة الكبيرة بالفعل أن تصل باستمرار إلى التشخيص حتى في الحالات المعقدة، لكن جودة الاستجابة الطبية لا يمكن تقييمها فقط من السطر الأول. إذا حدد النظام بشكل صحيح الحالة لكنه لم يقترح الفحوصات الإلزامية قبل العلاج، ولم يحدد المسار إلى المتخصص المطلوب، ولم يوضح جداول المراقبة، فإن خطر الخطأ لا يختفي.

بالنسبة لمطوري خدمات الذكاء الاصطناعي الطبية، هذا إشارة لتحويل التركيز من التشخيصات المثيرة إلى سيناريو إدارة المريض الكامل. وبالنسبة للمستخدمين — تذكير بأن قيمة هذه الأنظمة تحددها ليس فقط دقة التعرف، بل أيضاً سلامة الخطوة التالية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…