Micro1 توظف أشخاصاً في جميع أنحاء العالم لتدريب الإنسانيات بينما يحتاج سوق الذكاء الاصطناعي إلى اختبارات جديدة
مع تسارع سوق الإنسانيات، تدفع Micro1 و Scale AI و DoorDash بالفعل الأشخاص لتصوير المهام المنزلية العادية، من الكي إلى غسل الأطباق. هذه الفيديوهات ضرورية…
معالج بواسطة الذكاء الاصطناعي من MIT Technology Review؛ بتحرير Hamidun News
سوق الذكاء الاصطناعي المتجسد يواجه محدودية ليست فقط في الأجهزة، بل أيضًا في البيانات البشرية: آلاف الأشخاص في جميع أنحاء العالم يسجلون فيديوهات لأنفسهم وهم يقومون بالغسيل والكي والتنظيف في منازلهم لتدريب الروبوتات الإنسانية. في هذا السياق، يقول الباحثون بشكل متزايد أن الاختبارات التقليدية للذكاء الاصطناعي تكشف القليل جدًا عن كيفية عمل هذه الأنظمة فعليًا في العمل الحقيقي.
كيفية تدريب الروبوتات الإنسانية
تعتبر شركة Micro1 واحدة من أبرز الشركات في هذه الطبقة الجديدة من السوق. تستأجر مقاولين في أكثر من 50 دولة، بما في ذلك نيجيريا والهند والأرجنتين، لتسجيل الأعمال اليومية من منظور الشخص الأول: طي الملابس وغسل الأطباق ومسح الطاولات وصب الماء وفتح الثلاجات. للقيام بذلك، يضع الأشخاص جهاز iPhone على رأسهم ويسجلون مقاطع فيديو قصيرة بأيديهم في الإطار. تمر الفيديوهات بعد ذلك عبر التحقق والتعليق والانتهاء بها في مجموعات البيانات التي تشتريها شركات الروبوتات.
المنطق واضح: كان لديك نماذج اللغات الكبيرة الإنترنت، لكن الروبوتات الإنسانية تحتاج إلى العالم الفيزيائي الحقيقي. تساعد المحاكاة في صقل الحركات، لكنها تلتقط بشكل سيء فوضى الشقة النموذجية: إضاءة مختلفة وطهوًا ضيقة وأسطح زلقة وعشرات أنواع الأشياء وطرق التفاعل معها. هذا هو السبب في أنه ليس فقط Micro1 و Scale AI، التي جمعت أكثر من 100000 ساعة من هذه المواد، بل أيضًا قنوات جديدة مثل DoorDash Tasks تظهر في السوق.
في 19 مارس 2026، أطلقت DoorDash رسميًا مشروعًا تجريبيًا يتم فيه دفع العمال لتسجيل الإجراءات اليومية والتسجيلات الصوتية للذكاء الاصطناعي والروبوتات. حتى مئات الآلاف من ساعات الفيديو تبدو أنها ليست حدود السوق بعد.
"سيستغرق هذا وقتًا أطول مما يعتقد كثير من الناس"، — خبير الروبوتات كين جولدبرج.
تكلفة هذه البيانات
بالنسبة للعديد من المقاولين، هذا عمل إضافي لائق: معدلات حوالي 15 دولارًا في الساعة في عدة دول تبدو تنافسية. لكن العمل يصبح رتيبًا بسرعة. يحتاج المشاركون إلى تسجيل إجراءات متشابهة بشكل متكرر والتوصل إلى سيناريوهات جديدة ضمن شقة صغيرة والتأكد من أن التسجيل يتوافق مع التعليمات. وصف عامل في دلهي قضاء ما يقرب من ساعة على فيديو مفيد مدته 15 دقيقة — ببساطة لأنه لا توجد الكثير من المهام المختلفة للتسجيل في منزله.
- ثبت جهاز iPhone أو أي هاتف ذكي متوافق على مستوى الرأس
- سجل مقاطع فيديو من منظور الشخص الأول، عادة 1–2 دقيقة لكل منهما
- يجب أن تبقى اليدان والشيء في الإطار طوال الوقت تقريبًا
- هناك حاجة إلى اختلافات في الإضاءة والغرف والأسطح والأشياء
- يتم تجنب الوجوه والأسماء وغيرها من البيانات الشخصية إن أمكن
السؤال الرئيسي هنا ليس حقًا روتينيًا، بل خصوصيًا. حتى لو لم يظهر وجه في الإطار، يحتوي الفيديو على تصميم داخلي وأدوية المطبخ وممتلكات الأطفال والروتين اليومي والجيران الذين تم التقاطهم عرضًا في الخلفية. وفي الوقت نفسه، غالباً ما لا يعرف المقاولون أنفسهم بالضبط لمن يتم بيع تسجيلاتهم وكم من الوقت يتم تخزينها أو ما إذا كانوا يستطيعون طلب الحذف.
تقول الباحثة ياسمين كوتوري بوضوح أن الشركات يجب أن تشرح مقدمًا للأشخاص إلى أين قد تصل هذه التكنولوجيا وكيف ستؤثر عليهم في المستقبل.
لماذا الاختبارات تفشل
بالتوازي مع سباق البيانات، يتصاعد نزاع آخر: كيف نقيس جودة الذكاء الاصطناعي على الإطلاق؟ تعتقد الباحثة أنجيلا أريستيدو أن الصناعة عاشت وقتًا طويلاً في منطق امتحان مدرسي، حيث تتم مقارنة نموذج بشخص على مهمة معزولة بإجابة صحيحة أو خاطئة. في الحياة الواقعية، هذا يحدث نادرًا جدًا.
يتم دمج الذكاء الاصطناعي في الفرق والقوانين والعمليات الطويلة، حيث لا يهم فقط مدى دقة النظام وسرعته، بل أيضًا كيفية تأثيره على تنسيق الأشخاص والعبء والثقة ومعدلات الخطأ في الخطوات اللاحقة.
بدلاً من ذلك، تقترح أريستيدو نهج HAIC — Human–AI, Context-Specific Evaluation. الفكرة هي الاختبار ليس نموذجًا في الفراغ، بل كيفية عمل النظام داخل المؤسسة على أفق طويل.
في أمثلتها، قد يبدو الذكاء الاصطناعي الطبي جيدًا في الاختبارات لكنه يبطئ العمل في المستشفيات لأن الأطباء اضطروا إلى تعديل استنتاجاتهم وفقًا للمعايير المحلية للإبلاغ ومتطلبات التنظيم.
يحول هذا النهج التركيز على عدة خطوط:
- من المهمة الفردية إلى العمل الجماعي وسير العمل
- من الاختبار الفردي إلى التأثير طويل الأجل
- من الدقة الخالصة إلى جودة التنسيق واكتشاف الأخطاء
- من إجابة واحدة إلى العواقب قبل وبعد استخدامها
بالنسبة للأعمال التجارية، هذا فكر غير مريح لكنه مفيد. لا تزال النقاط العالية في معيار اختبار لا تعني أن الأداة ستسرع مستشفى أو مستودع أو خدمة دعم أو منظمة إنسانية.
في حالة تصفها أريستيدو، تم تقييم نظام لمدة 18 شهرًا ضمن عمليات حقيقية، مع تتبع منفصل عن السهولة التي يلاحظ بها الناس ويصححون أخطاءها. فقط مثل هذا الاختبار كشف عن آليات الحماية المطلوبة قبل النشر على نطاق واسع.
ماذا يعني هذا
في كل من قصة المدربين المنزليين للروبوتات والنقاش حول المعايير الجديدة، هناك استنتاج مشترك واحد: تعتمد صناعة الذكاء الاصطناعي بشكل متزايد ليس على العروض التوضيحية المبهرة بل على جودة البنية التحتية المخفية. الفائزون لن يكونوا فقط أولئك الذين لديهم روبوتات أكثر إعجابًا أو درجات اختبار أعلى، بل أولئك الذين يمكنهم جمع البيانات الحقيقية بأخلاقيات، وشرح القواعد العمل بوضوح، وإثبات قيمة النظام ضمن العمليات الفعلية، وليس فقط على خشبة المسرح.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.