Wired→ оригинал

Как китайские ИИ-чатботы цензурируют сами себя

Совместное исследование Стэнфорда и Принстона показало, что китайские ИИ-модели значительно чаще западных уклоняются от ответов на политические вопросы или дают

Как китайские ИИ-чатботы цензурируют сами себя
Источник: Wired. Коллаж: Hamidun News.

Языковые модели, разработанные в Китае, не просто отличаются от западных конкурентов по архитектуре или обучающим данным. Они отличаются тем, о чём готовы говорить — и о чём предпочитают молчать. Новое исследование учёных из Стэнфордского и Принстонского университетов впервые системно задокументировало масштаб встроенной самоцензуры в китайских ИИ-чатботах, и результаты оказались красноречивее любых предположений.

Исследователи протестировали несколько крупнейших китайских языковых моделей, задавая им вопросы на политически чувствительные темы — от событий на площади Тяньаньмэнь и статуса Тайваня до внутренней политики Коммунистической партии Китая и прав человека в Синьцзяне. Результаты сравнивались с ответами западных моделей, включая продукты OpenAI, Anthropic и Google. Разрыв оказался колоссальным: китайские модели в разы чаще либо полностью отказывались отвечать на вопрос, либо выдавали ответы, которые исследователи квалифицировали как фактически неточные и идеологически выверенные. При этом речь шла не о случайных ошибках — паттерны уклонения были настолько последовательными, что указывали на намеренно встроенные механизмы фильтрации.

Важно понимать контекст, в котором появилось это исследование. Китайские ИИ-компании — Baidu с моделью Ernie, Alibaba с Qwen, DeepSeek и другие — в последние полтора года агрессивно выходят на международный рынок. DeepSeek в начале 2025 года произвёл настоящий фурор, продемонстрировав модели, сопоставимые по качеству с GPT-4, при значительно меньших затратах на обучение. Эти модели скачивают миллионы пользователей по всему миру, и вопрос о том, какую картину мира они транслируют, перестаёт быть академическим.

Китайское законодательство прямо обязывает разработчиков ИИ следить за тем, чтобы их продукты соответствовали «основным социалистическим ценностям» и не подрывали государственную власть. Правила, принятые Администрацией киберпространства Китая в 2023 году, требуют от генеративных ИИ-сервисов прохождения проверки безопасности перед выходом на рынок. Фактически это означает, что цензура закладывается в модели ещё на этапе разработки — через фильтрацию обучающих данных, тонкую настройку с учётом «красных линий» и системные промпты, ограничивающие поведение модели. Исследование из Стэнфорда и Принстона показывает, что эти механизмы работают эффективно и последовательно.

Однако проблема выходит далеко за рамки политической корректности по-пекински. Когда модель обучена уклоняться от определённых тем, это неизбежно влияет на общее качество её рассуждений. Исследователи отмечают, что китайские модели демонстрировали сниженную точность не только на откровенно политических вопросах, но и на смежных темах — истории, географии, международных отношениях. Цензура, встроенная в фундамент модели, создаёт своего рода «слепые зоны», которые могут проявляться в самых неожиданных контекстах. Для пользователя, который обращается к чатботу за информацией и не подозревает о наличии таких фильтров, это представляет реальную угрозу получения искажённой картины мира.

Это исследование ставит перед глобальным ИИ-сообществом неудобный, но необходимый вопрос о прозрачности. Западные модели тоже не свободны от ограничений — они отказываются генерировать определённый контент, избегают некоторых тем и имеют собственные предубеждения, заложенные в процессе обучения. Но между отказом генерировать инструкции по изготовлению взрывчатки и систематическим искажением исторических фактов в угоду государственной идеологии существует принципиальная разница. Первое — это вопрос безопасности, второе — вопрос информационной манипуляции.

Для регуляторов по всему миру результаты исследования должны стать сигналом к действию. По мере того как китайские модели набирают популярность за пределами КНР — в том числе благодаря открытым весам и привлекательной ценовой политике — необходимы стандарты прозрачности, которые позволят пользователям понимать, какие ограничения заложены в используемую ими модель. Европейский AI Act уже движется в этом направлении, но пока ни одна юрисдикция не выработала эффективного механизма аудита идеологических предубеждений в языковых моделях.

Главный вывод из работы стэнфордских и принстонских исследователей не в том, что китайские модели «хуже» западных. Он в том, что ИИ неизбежно отражает ценности и ограничения той системы, в которой создаётся. И чем мощнее становятся эти модели, тем важнее понимать, чьи именно ценности они несут — и о чём они научены молчать.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…