Habr AI→ المصدر

BPE مقابل الصيغ الصرفية: لماذا لا يستطيع ذكاؤك الاصطناعي القراءة

تخيل أنك تتعلم لغة أجنبية، لكن كتابك المدرسي مقطع إلى قطع عشوائية من الورق. بدلاً من تعلم الجذر "ход" وفهم عشرات الكلمات من "выхода" إلى "перехода"، أنت مجبر…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
BPE مقابل الصيغ الصرفية: لماذا لا يستطيع ذكاؤك الاصطناعي القراءة
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

تخيل أنك تتعلم لغة أجنبية، لكن كتابك المدرسي مقطع إلى قطع عشوائية من الورق. بدلاً من تعلم الجذر "ход" وفهم عشرات الكلمات من "выхода" إلى "перехода"، أنت مجبر على حفظ كل مجموعة حروف كرمز هيروغليفي فريد. هذا هو الحال مع أكثر نماذج اللغة تقدماً اليوم.

بينما نستعجب من قدرات GPT-4 أو Claude 3، يحتوي أساسها على قنبلة موقوتة معمارية تسمى BPE أو Byte Pair Encoding. أصبح هذا الخوارزمية معيار الصناعة منذ عام 2016، وتقريباً لم يشكك فيها أحد منذ ذلك الحين. المشكلة أن BPE عالم رياضيات اجتماعي لا يهتم على الإطلاق بالعلم اللغوي.

إنه يقطع النص إلى رموز بناءً حصراً على تكرار الأحرف. نتيجة لذلك، تصبح كلمة "paratrooper" سلسلة بلا معنى من "par" و "atro" و "oper" للنموذج. ينفق النموذج مليارات الدورات الحسابية وأجزاء هائلة من معاملات النموذج ببساطة على إعادة بناء الروابط المنطقية بين هذه الشظايا التي يقرأها دماغك على الفور.

لفترة طويلة، كان يُعتقد أنه إذا أطعمت شبكة عصبية بيانات كافية، فستتعلم قوانين القواعس والصرف من تلقاء نفسها. وتتعلم، لكن تفعل ذلك بشكل غير فعال للغاية. قررت مجموعة من الباحثين اختبار ما سيحدث إذا أعادوا إدخال الفطرة السليمة والبنية اللغوية في عملية التدريب.

اختبروا نهج MorphBPE و MorphPiece، التي تجبر المحلل إلى احترام حدود الصرفة: البادئات والجذور واللواحق. كانت النتائج صاحية للمؤمنين بـ "الرياضيات النقية". تظهر النماذج التي تستخدم التحليل الصرفي تحسناً بنسبة 25% في الدقة في اختبار LAMBADA، الذي يقيس القدرة على التنبؤ بآخر كلمة في الجملة.

لكن الأهم من ذلك هو سرعة التقارب: هذه الشبكات تتدرب بمعدل أسرع بمرتين. في تجربة واحدة، نموذج أكمل فقط 200 ألف خطوة تدريب مع التحليل الصحيح تطابق جودة إجابات GPT-2 Large، وهو أكبر بستة أضعاف من حيث عدد المعاملات. هذا إشارة مباشرة للسوق: يمكننا الحصول على نفس النتائج على أجهزة أرخص بكثير إذا توقفنا عن إطعام الخوارزميات "فرم الكلمات".

لماذا لم تنتقل OpenAI و Google و Anthropic إلى هذه الطريقة بعد؟ الجواب يكمن في الجمود وتعقيد التنفيذ للأنظمة متعددة اللغات. BPE عام — لا يهمه إذا كنت تطعمه نصاً بالإنجليزية أو رمز Python أو أحرف صينية. يتطلب التحليل الصرفي تخصيصاً لكل لغة محددة، مما يعقد خط أنابيب تحضير البيانات.

ومع ذلك، فإن أزمة تكاليف التدريب الحالية ونقص النصوص عالية الجودة تدفع المهندسين للبحث عن طرق تحسين جديدة. عندما تتجاوز تكلفة تدريب نموذج رائد مئات الملايين من الدولارات، يصبح توفير 50% من وقت التقارب مسألة بقاء أعمال. علاوة على ذلك، يحل النهج الصرفي مشكلة الكلمات النادرة والكلمات المبتكرة الجديدة.

إذا كان النموذج يفهم معنى الصرف، فيمكنه استنتاج معنى الكلمة التي يراها للمرة الأولى منطقياً، بدلاً من التخمين بناءً على مجموعات الرموز.

نحن الآن نشهد عودة هادئة للعلم اللغوي الكلاسيكي في عصر الضجة حول الشبكات العصبية. يصبح من الواضح أن قياس "القوة الغاشمة" غير المحدود من خلال زيادة عدد معالجات GPU هو طريق مسدود. يكمن المستقبل في الحلول الهجينة، حيث يحرر الفهم العميق لبنية اللغة عند الإدخال النموذج من الحاجة إلى إعادة اختراع العجلة داخل طبقاته. على الأرجح، في بنية GPT-5 أو خلفائها، سنشهد التخلي عن BPE البدائي لصالح أنظمة تقسيم نصوص أكثر ذكاءً. هذا ليس مجرد تفصيل تقني، بل تحول أساسي في كيفية إدراك الآلات للثقافة الإنسانية المشفرة في الكلمات. بينما يصقل الباحثون خوارزميات MorphPiece و Unigram مع التحسينات الصرفية، يجب على المطورين الاستعداد لحقيقة أن طرق تحضير مجموعات البيانات القديمة ستُرسل قريباً إلى سلة المهملات.

الخلاصة الرئيسية: استخدام الصرف بدلاً من المقاطع العشوائية يجعل النماذج أذكى وأرخص بمرتين في التدريب. هل الصناعة جاهزة للاعتراف بأن اللغويين كانوا محقين منذ البداية، أم سننقل حرق الكهرباء محاولين تعليم الذكاء الاصطناعي القراءة مقطع تلو مقطع؟

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…