مطور أنشأ أداة تدريب على قراءة الكود — واصطدم بعدم الحتمية لدى LLM
سئم مطور من قراءة كود الآخرين ببطء — وحتى كوده القديم — فأنشأ أداة تدريب: تقرأ مقطعًا جاهزًا، وتشرحه بكلماتك، ثم يقيّمه LLM. يبدو الأمر بسيطًا، لكن الأصعب لم…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أطلق مطوّر من موقع خبر مشروعاً غير عادي: محاكاة تدريبية حيث لا تكتب الأكواد، بل تقرأ مقطع رمز عملياً وتشرحه بكلماتك الخاصة — وتقيّم نموذج اللغة جودة شرحك. الفكرة بسيطة، لكن التنفيذ ثبت أنه معقد بشكل غير متوقع.
من أين جاءت الفكرة
تراكمت إزعاجان تدريجياً. الأول كان كود خاص بي من قبل شهرين: من حيث المبدأ كل شيء واضح، لكن عليك قضاء وقت أطول مما تود في إعادة قراءته. الثاني كان محاولات شرح معمارية المشروع لأصدقائي: تعرف كل شيء تماماً، لكنك تتحدث بشكل متقطع، تتعثر على الكلمات، لا يمكنك ربط أفكارك في كل موحد. نشأت المحاكاة التدريبية من هاتين المشكلتين.
الآلية بسيطة: يُظهر لك مقطع رمز عملي حقيقي، تشرحه بكلماتك الخاصة — شفهياً أو كتابياً — وتحصل على تقييم من نموذج اللغة. بدون كتابة أكواد على الإطلاق، فقط القراءة والشرح. شيء بين مراجعة الأكواد والحوار مع مدرب.
الفكرة بحد ذاتها ليست جديدة — شرح الأكواد بصوت عالٍ يُستخدم في البرمجة الثنائية والمقابلات التقنية. لكن نسخة آلية، متاحة دائماً، هي بالفعل مثيرة للاهتمام.
حيث انكسرت: عدم الحتمية في نموذج اللغة
كتابة المحاكاة التدريبية نفسها ثبت أنها سهلة نسبياً. بدأت الصعوبات عند إعداد التقييم. تبدو المهمة تافهة: أعط النموذج نصين — الرمز وشرح المستخدم — واطلب منه تقييم مدى جودة وصف أحدهما للآخر. عملياً، تصرف النموذج بطريقة غير متوقعة:
- للشرح ذاته، أعطى درجات مختلفة عند الطلبات المتكررة
- قيّم بعض جوانب الرمز بارتفاع غير عادل، تجاهل جوانب أخرى بدون سبب
- تغيّرت "صرامة" المُقيّم من طلب إلى آخر بدون أنماط واضحة
- كان من غير الواضح ما الذي يعتبر شرحاً جيداً — شاملاً أم موجزاً؟
هذا عدم الحتمية الكلاسيكي في نموذج اللغة — خاصية يعرفها الجميع نظرياً، لكن تشعر بها بحدة بالضبط عندما تحتاج إلى دالة تقييم قابلة للتكرار من النموذج، وليس توليد النصوص.
ما الذي يجب تقييمه بالضبط
اكتشف المطوّر أن المشكلة الرئيسية ليست تقنية، بل مفاهيمية: ما الذي يعتبر شرحاً جيداً للرمز؟ هل يجب أن يكون شاملاً — يغطي جميع الفروع والحالات الحدية والآثار الجانبية؟ أم يكفي نقل الفكرة الرئيسية للخوارزمية بدقة؟ هل يجب ذكر الأخطاء المحتملة؟ هل المصطلحات مهمة؟ هل يجب على الشارح إظهار فهم لسبب كتابة هذا الرمز، وليس فقط ما يفعله؟
بدون إجابات واضحة، أي معايير تقييم لنموذج اللغة تصبح غامضة — ويملأ النموذج عدم اليقين بشكل تعسفي. هذا بالضبط السبب في أن هندسة الاستدعاء لمهام التقييم أكثر تعقيداً بكثير من المهام التوليدية.
الأساليب التقنية الممكنة: استدعاءات صارمة برموز محددة، التصويت على عدة طلبات مستقلة للنموذج، شروح مرجعية كمقياس. لكن أولاً، يجب عليك تحديد ما تقيسه بالضبط.
"تبين أن الجزء الأصعب لم يكن كتابة المحاكاة التدريبية، بل جعل الشبكة
العصبية تقيّم بصدق واستقرار — وفهم بالضبط ما يجب تقييمه"
ما معنى هذا
تُوضح القصة فخاً نموذجياً لمشاريع نموذج اللغة: الجزء الذي يبدو الأكثر بساطة — "سيقيّم النموذج" — في الواقع يتطلب جهداً هندسياً أكثر من بقية المنتج. مهمة تطوير مهارة قراءة وشرح الأكواد هي حاجة حقيقية، خاصة في الفرق التي تحتوي على كميات كبيرة من الأكواد الموروثة. لكن بناء مُقيِّم آلي موثوق لمثل هذه المهارات العملية يبقى تحديّاً هندسياً مفتوحاً.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.