Habr AI→ المصدر

NER للإنسان السليم: لماذا أخيراً تفوز الرموز على علامات BIO

تخيل أنك تبني منزلاً، لكن بدلاً من العمل بالطوب أو الجدران الكاملة، تجبر العمال على وصف كل حبة رمل في المونة. هذا تقريباً ما كنا نفعله في معالجة اللغات…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
NER للإنسان السليم: لماذا أخيراً تفوز الرموز على علامات BIO
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

تخيل أنك تبني منزلاً، لكن بدلاً من العمل بالطوب أو الجدران الكاملة، تجبر العمال على وصف كل حبة رمل في المونة. هذا تقريباً ما كنا نفعله في معالجة اللغات الطبيعية خلال السنوات العشر الماضية، باستخدام وضع العلامات BIO للتعرف على الكيانات المسماة (NER). اعتدنا على فكرة أن النموذج يجب أن يضع علامة على كل رمز: هنا حيث بدأت الكيان (B)، هنا تستمر (I)، وهنا خرجنا عن حدودها (O). كان هذا مريحاً للرياضيات والطبقات CRF الجيدة القديمة، لكنه غير فعال بشكل مروع للأنظمة الحقيقية.

المشكلة هي أن الكيان في النص ليس سلسلة من العلامات، بل جزء متماسك له حدود فيزيائية. عندما نجبر نموذجاً على التنبؤ بالعلامات لكل قطعة فردية من كلمة، فإننا نخلق تكراراً ضخماً ونقاط فشل غير ضرورية. أي شخص قام بتدريب BERT أو مشتقاته لمهام NER يعرف هذا الألم المحدد. تقسم المعالجات الحديثة مثل WordPiece أو BPE الكلمات المعقدة إلى رموز فرعية. نتيجة لذلك، قد يتحول اسم عائلة بسيط إلى ثلاثة أو أربعة أجزاء، وينتهي بك الحال إلى إخفاء الأجزاء الإضافية أو ابتكار حلول بديلة لدمجها في معالجة لاحقة. تحصل على تنبؤ لا يزال يتعين فك تشفيره لفترة طويلة ومؤلمة فقط للإجابة على السؤال البسيط: أين اسم المدير هنا؟

الانتقال إلى منهج مستوى الفترة ليس مجرد فائض معماري آخر، بل هو اعتراف بأننا ظللنا نسير على طريق المقاومة الأقل لفترة طويلة جداً. بدلاً من تصنيف كل رمز، تبدأ الأنظمة الحديثة في رؤية النص كمجموعة من الفترات المحتملة. يتعلم النموذج تحديد الحدود — فهرس البداية وفهرس النهاية — وتعيين نوع كيان لتلك الفترة. هذا يحل مشكلة السلاسل غير المتسقة على الفور وإلى الأبد. في عالم BIO، كان بإمكان النموذج إصدار علامة بدء المنظمة، ثم الرمز التالي يحصل على استمرار الشخص. مع منهج مستوى الفترة، مثل هذا الخطأ المنطقي مستحيل تقنياً. يقول النموذج ببساطة: من الكلمة الثالثة إلى الخامسة لدينا موقع. وهذا الادعاء ذري.

علاوة على ذلك، يفشل منهج BIO الكلاسيكي تماماً مع الكيانات المتداخلة. حاول وضع علامات مناسبة على العبارة "جامعة موسكو الحكومية" إذا كان تطبيقك يحتاج إلى استخراج كل من المدينة (موسكو) والمؤسسة التعليمية كأجسام منفصلة. ضمن سلسلة أحادية البعد من الرموز، يتحول هذا إلى كابوس توافقي أو يتطلب طبقات متعددة من النماذج. تحل الفترات هذه المشكلة بأناقة وطبيعية: يمكن للقطعة النصية نفسها أو مجموعة فرعية منها أن تنتمي إلى فئات مختلفة على مستويات تجريد مختلفة. هذا حرج للمستندات القانونية، حيث يتم تضمين العقد في تعديل، وهو متداخل في عمل، أو للطب، حيث يمكن أن يكون اسم العرض جزءاً من اسم متلازمة معقدة.

لماذا من المهم الحديث عن هذا الآن؟ نحن نخرج بسرعة من عصر "دع النموذج ينتج شيئاً ما" ندخل عصر الذكاء الاصطناعي الصناعي والموثوق. في خطوط الأنابيب الحقيقية، أصبحت نظافة البيانات وسهولة الصيانة والتنبؤ بالنتائج أكثر أهمية من الضغط على نقطة مئوية إضافية من درجة F1 على مجموعات البيانات الأكاديمية المستهلكة مثل CoNLL-2003. يتيح لك استخدام الفترات تبسيط الكود بشكل جذري، والتخلص من مئات أسطر التعبيرات العادية لخياطة الرموز معاً، وجعل النماذج أكثر مرونة لضوضاء التعريف المحددة.

إذا كان وحدة NER الخاصة بك لا تزال تنتج تدفقاً لا نهائياً من العلامات التي تحاول بعد ذلك تجميعها في أجسام ذات مغزى، فأنت عالق في الماضي. تتطلب المكدس الحديث العمل المباشر مع الحدود الدلالية. هذا ليس فقط أسرع في التطوير، بل هو أيضاً ببساطة أكثر منطقية من منظور لغوي. نحن لا نقرأ الكلمات حرفاً بحرف، بل ندرك العبارات والأجسام ككل. حان الوقت لكي تبدأ نماذجنا بفعل الشيء نفسه.

النقطة الرئيسية: لقد حان الوقت للتوقف عن تعليم النماذج رؤية الرموز والبدء في تعليمهم رؤية الكتل الدلالية. يكمن مستقبل NER في الهياكل المعمارية التي تعمل مباشرة مع حدود الأجسام، تاركة علامات BIO في كتب التاريخ.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…