Hugging Face Blog→ المصدر

كيف يبني Hugging Face تطبيقات ويب قابلة للتوسع باستخدام Privacy Filter من OpenAI

استكشفت Hugging Face كيفية تحويل OpenAI Privacy Filter إلى منتجات ويب حقيقية وليس مجرد نموذج لتحرير النصوص. يتضمن المثال ثلاث تطبيقات: عارض PDF و DOCX مع…

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
كيف يبني Hugging Face تطبيقات ويب قابلة للتوسع باستخدام Privacy Filter من OpenAI
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

بعد عدة أيام من إطلاق OpenAI لنموذج Privacy Filter، قدم فريق Hugging Face ليس عرضاً تقديمياً مجرداً، بل ثلاثة سيناريوهات عملية حيث تتحول هذه الأداة إلى تطبيقات ويب كاملة الوظائف. الفكرة بسيطة: أولاً كشف وإخفاء البيانات الشخصية محلياً، ثم نقل النص أو المستند أو لقطة الشاشة إلى أسفل خط أنابيب الذكاء الاصطناعي. بالنسبة للفرق التي تبني واجهات حول البيانات الحساسة، هذا أهم من عرض الدردشة التالي، لأن السؤال لا يتعلق فقط بجودة النموذج، بل بكيفية دمجه في منتج حقيقي دون بنية تحتية إضافية.

أطلقت OpenAI Privacy Filter في 22 أبريل 2026. إنه نموذج open-weight للبحث عن وتحرير معلومات التعريف الشخصية في النص برخصة Apache 2.0، بحيث يمكنك تشغيله في بيئتك الخاصة وتحسينه الدقيق لحالات استخدامك الخاصة واستخدامه في المنتجات التجارية.

يحتوي النموذج على 1.5 مليار معامل، لكن حوالي 50 مليون فقط تبقى نشطة، والسياق يصل إلى 128 ألف رمز. يقوم بتعليق النص في مرور واحد ويبحث عن ثمانية أنواع من الكيانات الحساسة: أسماء الأفراد والعناوين والبريد الإلكتروني وأرقام الهواتف وعناوين URL والتواريخ وأرقام الحسابات والعديد من الأسرار مثل كلمات المرور أو مفاتيح API.

وفقاً لـ OpenAI، يُظهر النموذج F1 بنسبة 96% على معيار PII-Masking-300k و 97.43% على النسخة المصححة من مجموعة البيانات. تفصيل مهم: إنه ليس مولداً نصياً، بل مصنفاً متخصصاً للرموز، لذلك فهو مناسب لمهام الخصوصية السريعة في السجلات والمستندات والفهارس وخطوط أنابيب العلامات.

المثال الأول من Hugging Face هو Document Privacy Explorer. يقوم المستخدم بتحميل ملف PDF أو DOCX ويحصل على المستند مرة أخرى مع تمييز أجزاء معلومات التعريف الشخصية وتصفية حسب الفئات وملخص الإحصائيات في الأعلى. بفضل السياق الطويل، يمكن للنموذج معالجة مستند كبير بالكامل دون تقسيمه إلى أجزاء ودمج لاحق، مما يعني أن إزاحات الأحرف تتطابق مع ما يراه المستخدم في الواجهة. يؤكد الفريق بشكل منفصل أن كتابة واجهة قارئ من هذا القبيل كانت أسهل في اليد باستخدام HTML و JavaScript بدلاً من التجميع من كتل واجهة المستخدم الجاهزة. يبقى جانب الخادم مضغوطاً: نقطة نهاية واحدة عبر gradio.Server تستقبل ملفاً وتستخرج النص وتمريره عبر Privacy Filter وتعيد النص والنطاقات التي تم العثور عليها والإحصائيات.

السيناريو الثاني هو Image Anonymizer للقطات الشاشة والصور. هنا خط الأنابيب أعقد قليلاً: أولاً يستخرج OCR عبر Tesseract النص وإحداثيات الكلمات، ثم يحدد Privacy Filter الأجزاء الحساسة، وبعد ذلك يترجم الخادم النطاقات التي تم العثور عليها مرة أخرى إلى مستطيلات على الصورة. يحصل المستخدم على ليس مجرد لقطة شاشة مشوشة، بل على canvas تفاعلي: يمكن تشغيل الصناديق السوداء وإيقافها حسب الفئة وتحريكها وتحريرها يدوياً وتصديرها كـ PNG نهائي دون إعادة إرسال التغييرات إلى الخادم. بالنسبة للسيناريوهات الخاصة، هذه حجة قوية: جميع المعالجات اللاحقة تبقى في المتصفح والنموذج مطلوب فقط في مرحلة الكشف الأولية.

المثال الثالث هو SmartRedact Paste، وهو في الأساس pastebin للنص الحساس. يقوم المستخدم بلصق سجل أو بريد أو تذكرة ويحصل على رابطين: نسخة عامة بأقنعة مثل PRIVATE_EMAIL و PRIVATE_PERSON، ورابط خاص مع رمز حيث يمكنه رؤية الأصل مع تمييز الأجزاء التي تم العثور عليها.

يوضح هذا المثال بوضوح لماذا تستخدم Hugging Face gradio.Server بالتحديد. كل شيء يتعلق بالنموذج يمر عبر قائمة الانتظار @server.api، بينما يتم خدمة الصفحات العادية وعرض المعاجين بطرق FastAPI البسيطة في نفس العملية. بفضل هذا، يمكن للخدمة أن تحتوي على عناوين URL مخصصة وأبواب رمز لعرض خاص ونفس وظيفة الكشف التي يمكن الوصول إليها من المتصفح وعميل Python. تلاحظ المقالة بشكل منفصل أن الخدمة بأكملها مع التخزين تناسب حوالي 200 سطر من كود التطبيق.

الاستنتاج الرئيسي من هذه الأمثلة ليس أن Gradio يعرف كيفية عرض العروض التقديمية الجميلة، بل أن بنية الخصوصية تبدأ في الظهور كطبقة منتج عادية. تقترح Hugging Face قاعدة معمارية بسيطة: إرسال العمليات الثقيلة للنموذج إلى قوائم انتظار gradio.Server والاحتفاظ بجميع المنطق الآخر — الصفحات وتسليم الملفات والقراءات الرخيصة والتحقق من الرموز — على مسارات FastAPI العادية. هذا الترتيب يوفر قابلية التوسع دون تكرار كود الخادم ويسمح ببناء واجهات مخصصة بدلاً من نماذج القوالب.

بالنسبة للسوق، هذه إشارة إلى أن تصفية البيانات الشخصية المحلية لا تعود مجرد مهمة للفرق الكبيرة في المؤسسة. ومع ذلك، تحذر OpenAI بشكل مباشر: Privacy Filter ليس شهادة امتثال وليس بديلاً لمراجعة السياسة. في السيناريوهات القانونية والطبية والمالية، لا تزال المراجعة البشرية وتقييم البيانات المجال وضبط الحد الدقيق مطلوبة. لكن كحجر بناء أساسي لتطبيقات الذكاء الاصطناعي الآمنة، فهي بالفعل أداة عملية جداً.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…