Marusya وSalyut يقرآن عبارات غير مرغوب فيها بصوت عالٍ عبر الاختيارات والأسماء والتذكيرات
كما أظهر التحليل، يمكن التحايل على المساعدين الصوتيين Marusya وSalyut من دون API أو سكربتات. في Marusya، يعمل سيناريو الاختيار بين خيارين، وفي Salyut تعمل…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
اتضح أن مساعدات الصوت المنزلية مروسيا وسليوت يمكن إجبارهما على نطق عبارات يجب عليهما عادة حجبها. لا يتطلب ذلك واجهات برمجية أو مهارات برمجية أو أتمتة: السيناريوهات القياسية كافية مثل الاختيار بين الخيارات والتذكيرات والحقائق المحفوظة.
كيفية عمل الالتفاف
في السيناريو الأول، نتحدث عن مروسيا. لاحظ المؤلف أن المساعد يرد برحابة على أسئلة بصيغة "أ أم ب؟" ويختار ببساطة أحد الخيارات المقترحة. المشكلة أن النظام، وفقاً لوصف التجربة، لا يحلل قبول كلا الإجابتين كبناء موحد. إذا كان كلا الخيارين معبراً عنهما بشكل سيء، تنطق الأسطوانة أحدهما بصوت مرتفع على أي حال، بينما في طلب مباشر عادي لعبارة مماثلة، ستحتاج على الأرجح إلى الرفض.
مع سليوت، اتضح أن منطق الالتفاف مختلف، لكنه لا يقل كشفاً. بدلاً من طلب مباشر بنطق شيء غير مرغوب، قسم المؤلف العبارة إلى أجزاء وحفظها كأسماء "أصدقاء". بعد ذلك، يمكن طلب من المساعد أن يحيي الأصدقاء أو يعددهم بالترتيب، وسينطق القائمة المحفوظة بتسلسل. بشكل فردي، تبدو العناصر كبيانات عادية للملف الشخصي، لكن الإخراج يجمع في عبارة كاملة التي لا يعترضها المرشح بعد الآن.
أي السيناريوهات نجحت
إلى جانب اختيار الخيارات وقائمة الأسماء، يصف التحليل عدة وظائف يومية أخرى يمر من خلالها النص غير المرغوب. المخطط العام واحد في كل مكان: يقبل النظام أولاً العبارة كبيانات مستخدم عادية، ويحفظها في الذاكرة أو دالة خدمة، ثم يعيد إنتاجها حرفياً تقريباً في سياق مختلف حيث يكون التعديل الإضافي ضعيفاً أو غير مفعل تماماً لمثل هذه السيناريوهات.
- سؤال لمروسيا بصيغة "أ أم ب؟"، حيث كلا الإجابتين غير مرغوبتين، لكن إحداهما ستنطق على أي حال.
- تذكر أجزاء من عبارة كأسماء أصدقاء في سليوت مع قراءة لاحقة لهذه القائمة بصوت مرتفع.
- حفظ "حقائق" عن المستخدم أو محيطه، والتي يمكن بعد ذلك استحضارها بأمر مثل "أخبرني عني".
- تذكيرات عادية حيث يتم تسجيل النص أولاً، وبعد دقيقة واحدة ينطق المساعد ببساطة كرسالة خدمة.
من الناحية العملية، يعتبر هذا الالتفاف مزعجاً بشكل خاص لأنه لا يتطلب ظروفاً نادرة. لا يحتاج المستخدم إلى الوصول إلى الإعدادات الداخلية أو المهارات التابعة لجهات خارجية أو سلاسل الأتمتة. يكفي صياغة الطلب عدة مرات حتى يقبل المساعد أولاً النص المثير للجدل كبيانات، ثم ينطقه بنفسه في سياق مختلف.
بالنسبة للأجهزة المنزلية التي يستخدمها الأطفال والعائلات غالباً، لم تعد هذه مجرد فضول، بل مخاطرة حقيقية تماماً بسلوك غير مناسب.
لماذا لم تنجح المرشحات
في الملاحظة، يوصف المشكلة بأنها معمارية. الآليات الحماية في مثل هذه الأنظمة عادة ما تكون على مدخلات المستخدم المباشرة: عندما يطلب شخص من المساعد قول شيء محظور بوضوح، يحجب النموذج أو القاعدة الإجابة. لكن عندما تنقسم تلك العبارة نفسها إلى أجزاء غير ضارة، تحفظ كاسم أو حقيقة أو تذكير، تبدأ في الإدراك كبيانات موثوقة. في مرحلة النطق، تكون إعادة الفحص ضعيفة جداً أو غير موجودة تماماً.
«المشكلة هي أن التحكم يكون عادة على الإدخال، لكنه غائب عن الإخراج.»
لهذا السبب يربط المؤلف الملاحظة بحقن الفحوصات والفئة الأوسع من الهجمات على أنظمة LLM. إذا لم يستطع النموذج التمييز بين التعليمات وبيانات المستخدم، يمكن لعناصر آمنة فردية أن تتجمع في نتيجة غير مرغوبة. بالنسبة لمنصات الصوت، هذا يعني ليس فقط التكاليف السمعية، بل سيناريوهات أكثر خطورة: من النطق العرضي لعبارات سامة إلى تسرب أجزاء من السياق المحفوظ من خلال النطق.
ما يعني هذا
تظهر القصة مع مروسيا وسليوت أن مساعدات الصوت لم تعد تكفيها تعديل بسيط للطلبات المباشرة. من الضروري فحص ليس فقط ما قاله المستخدم الآن، بل أيضاً ما سينطق به النظام من الذاكرة والتذكيرات ومصادر البيانات "الآمنة" الأخرى. وإلا فإن الوظائف المنزلية العادية تصبح نفسها قناة لتجاوز القيود الأساسية ومصدر أخطار جديدة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.