MarkTechPost→ оригинал

OpenAI تطلق Privacy Filter: نموذج مفتوح لحذف البيانات الشخصية

أطلقت OpenAI نموذج Privacy Filter — نموذج مفتوح للإزالة التلقائية لمعلومات تحديد الهوية الشخصية (PII) من النصوص. على الرغم من وجود 1.5 مليار معامل، يتم استخدام

OpenAI تطلق Privacy Filter: نموذج مفتوح لحذف البيانات الشخصية
Источник: MarkTechPost. Коллаж: Hamidun News.

OpenAI опубликовала Privacy Filter — открытую модель на базе дистиллированного декодера, которая находит и удаляет персональные данные (PII) из текстов. Несмотря на 1.5 млрд параметров в весах, при инференсе активны лишь 50 млн — это позволяет запускать её прямо в браузере без серверной инфраструктуры.

Что такое

Privacy Filter Privacy Filter — специализированная языковая модель, заточенная под одну конкретную задачу: автоматически обнаруживать и редактировать персональные данные (Personally Identifiable Information, PII) в тексте. Это не универсальный чат-ассистент, а утилитарный инструмент — сфокусированный исключительно на том, чтобы находить чувствительную информацию и заменять её стандартизированными заглушками. Специализация оказывается преимуществом: узкозаточенная модель лучше справляется с задачей, чем универсальные LLM, которые нередко пропускают нестандартно сформулированные персональные данные или ошибаются в сложных контекстах. В основе лежит дистиллированный декодер: большая модель-учитель передаёт свои знания компактной модели-ученику в процессе дистилляции. Результат — высокая точность детекции при значительно меньших вычислительных требованиях. Модель опубликована в открытом доступе — любая компания может встроить её в собственные пайплайны без отправки данных на серверы OpenAI.

Архитектура: 50 млн из 1.5 млрд

Ключевая техническая деталь — разрыв между общим числом параметров (1.5 млрд) и теми, что реально активируются при обработке каждого токена (50 млн). Такой подход характерен для архитектур с разреженной активацией: разные нейронные блоки специализируются на разных аспектах задачи и включаются выборочно — в зависимости от входных данных.

Это делает Privacy Filter практичным инструментом в сценариях с ограниченными ресурсами: Браузер: совместимость с WebAssembly и ONNX — данные не покидают устройство пользователя Edge-устройства: 50M активных параметров позволяют работать без GPU на ноутбуках и смартфонах Self-hosted: модель полностью размещается внутри инфраструктуры компании CI/CD пайплайны: быстрый инференс без облачных зависимостей и дополнительных расходов ## Что умеет обнаруживать Privacy Filter распознаёт широкий набор категорий персональных данных, охватывающий ключевые требования GDPR, LGPD и CCPA: Имена, фамилии, инициалы (включая контекстное распознавание без явных маркеров) Адреса, почтовые индексы, геокоординаты Телефоны и email-адреса Идентификационные документы — паспорта, SSN, ИНН, водительские удостоверения Финансовые данные — номера карт и банковских счетов Медицинские идентификаторы Модель не просто помечает PII-фрагменты, но и заменяет их стандартными заглушками: [ИМЯ], [АДРЕС], [ТЕЛЕФОН]. Выходной текст сразу готов к дальнейшей обработке без ручного постпроцессинга.

Регуляторный контекст Регуляторное давление в части персональных данных нарастает по всему миру.

GDPR в Европе, LGPD в Бразилии, CCPA в Калифорнии — все эти законы требуют от компаний аккуратной работы с чувствительной информацией. Большинство коммерческих решений для автоматической анонимизации либо уступали по качеству, либо требовали передачи данных в облако — что само по себе противоречило логике конфиденциальности. Privacy Filter закрывает этот пробел: открытая модель с браузерной совместимостью, которую небольшая команда может встроить в продукт за день, не жертвуя конфиденциальностью пользователей.

Что это значит

OpenAI последовательно инвестирует в открытую инфраструктуру наряду с коммерческими флагманами. Privacy Filter показывает: компания видит рынок не только в API-доступе к GPT, но и в утилитарных инструментах, закрывающих конкретные операционные нужды. Это сигнал для рынка — open-source инструменты корпоративного уровня в области AI-безопасности данных становятся нормой. Для бизнеса это готовое решение задачи анонимизации без разработки с нуля и без зависимости от облака.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…