Babel Audio تدفع لغرباء مقابل التحدث كي يبدو AI الصوتي أكثر بشرية
تدفع Babel Audio للأشخاص مقابل محادثات مسجلة مع غرباء كي تتحدث النماذج الصوتية بشكل أكثر طبيعية. يبدأ هذا العمل الجانبي كمكالمة عادية، لكنه قد ينزلق بسهولة…
معالج بواسطة الذكاء الاصطناعي من Bloomberg Tech؛ بتحرير Hamidun News
تحول Babel Audio محادثات الأشخاص العاديين إلى مواد خام لذكاء اصطناعي الصوت. يصف Bloomberg كيف يعترف شركاء المحادثة المجهولون ويناقشون ويلعبون الأدوار حتى تتعلم الآلات الصوت ليس كرد آلي، بل كشخص حي.
كيف يعمل
في قلب القصة تقف امرأة باسم مستعار جينا. خلال مكالمة بعيدة، بدأت فجأة في سرد قصة غريب عن ذكريات مؤلمة وصدمات الطفولة وعلاقتها بوالدها. قدم شريك المحادثة نفسه كراعي روحي واستمع باهتمام بل نصحها بالاعتناء بنفسها وأخذ قسط من الراحة. بالنسبة لجينا، لم تكن هذه جلسة علاجية أو محادثة ودية، بل تسجيل مدفوع الأجر سيصبح لاحقاً جزءاً من مجموعة بيانات لتدريب الذكاء الاصطناعي.
"لقد أعطاني فعلاً نصيحة جيدة."
الخطة في Babel Audio بسيطة: يرسل الشخص عينة صوتية قصيرة، يجتاز الاختيار ويحصل على مهام للمحادثات أو شرح الصوت. ثم يقرن النظام بينه وبين مشارك آخر، ويتم تغليف التسجيل الخاص به في مجموعات بيانات التدريب لشركات الذكاء الاصطناعي. وفقاً لـ Bloomberg، تبدأ الأجرة الأولية من حوالي 17 دولاراً لكل ساعة تسجيل. يذكر موقع Babel Audio أكثر من 40,000 مشارك في أكثر من 60 دولة مع دعم أكثر من 20 لغة ودفعات أسبوعية بدون حد أدنى.
لماذا هذا قيّم
بالنسبة للمطورين، المشكلة ليست نقص النصوص، بل نقص الكلام الطبيعي. في مدونة David AI، الشركة الأم لـ Babel Audio، يُقال مباشرة: لا يوجد مكافئ للصوت من Common Crawl، لذا يجب تسجيل المواد الحوارية عالية الجودة من الصفر. تحتاج الأنموذجات ليس فقط إلى الكلمات، بل إلى كل خشونة صوتية للمحادثة الحقيقية - الشيء الذي يجعل الكلام معترف به كإنساني ويساعد النظام على تجنب الانزلاق إلى نبرة آلية.
- الفواصل والمقاطعات وتغييرات الوتيرة
- اللهجات واللغات المحلية والخصائص الإقليمية
- الضحكات والتنهدات والشكوك والانهيارات العاطفية في الصوت
- الضوضاء الخلفية والظروف الحقيقية للتسجيل
- السيناريوهات التمثيلية حيث يهم السياق والتنغيم
هذا هو السبب بالضبط في أن مثل هذا العمل يبدو غريباً فقط على السطح. في الواقع، لا تبيع Babel Audio مجرد صوت، بل أجزاء من السلوك الطبيعي التي تساعد نماذج الصوت على إدارة أدوار المحادثة بشكل أفضل والتعرف على السياق العاطفي وإصدار أصوات أكثر إقناعاً في المساعدين ومراكز الاتصالات والكلام الاصطناعي. كلما اقتربت الصناعة من ذكاء اصطناعي حواري حقيقي، أصبحت البيانات أكثر تكلفة - البيانات التي لا يمكن ببساطة الحصول عليها من الإنترنت المفتوح.
سعر الصوت البشري
لهذا النموذج جانب معاكس أيضاً. تكتب Bloomberg عن دخل غير مستقر لعمال الذكاء الاصطناعي: من الناحية الشكلية هو عمل جانبي مرن بدون رئيس أو مكتب، لكن عملياً الدخل يعتمد على قوانين جودة غير واضحة وتوفر المهام واستعداد الشخص لإعطاء صوته واهتمامه وعواطفه باستمرار. قد تبدأ محادثة مع غريب بموضوع محايد وتنزلق بسرعة إلى منطقة شخصية جداً، لكنها تُدفع كمهمة دقيقة عادية في اقتصاد المنصات.
في وثائق الموافقة من Babel Audio، يُذكر أيضاً أن الشركة قد تمنح رخصة لجهات خارجية بالصوت والفيديو وحتى نسخ صوتية من المشاركين لتطوير الكلام الاصطناعي والمساعدين الافتراضيين والمنتجات الأخرى. تعد المنصة بالتجهيل، لكنها تعترف في نفس الوقت: بناءً على البيانات نفسها، يمكن نظرياً تحديد هوية الشخص. لذلك، قصة Babel Audio ليست فقط عن التكنولوجيا، بل عن سعر الطبيعية. لكي يبدو الذكاء الاصطناعي أكثر إنسانية، يجب على الصناعة أن تشتري ليس فقط النطق، بل الضعف البشري.
ماذا يعني هذا
طفرة الذكاء الاصطناعي الصوتي تعتمد بشكل متزايد ليس على الخوارزميات المجردة، بل على العمل البشري الملموس جداً. تظهر قصة Babel Audio أن السباق الجديد في الذكاء الاصطناعي هو نحو الكلام الطبيعي، وأساسها هي محادثات حقيقية وعواطف حقيقية وأشخاص حقيقيون، الذين يبقون حتى الآن جزءاً غير مرئي تقريباً لكن حرجاً بشكل حرج من هذه الصناعة. وهو بالضبط هذا العمل الذي يجعل المنتجات الصوتية مقنعة حقاً.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.