Wired→ оригинал

How Chinese AI chatbots censor themselves

A joint study by Stanford and Princeton found that Chinese AI models are far more likely than Western ones to avoid answering political questions or provide pla

How Chinese AI chatbots censor themselves
Источник: Wired. Коллаж: Hamidun News.
◐ Слушать статью

Языковые модели, разработанные в Китае, не просто отличаются от западных конкурентов по архитектуре или обучающим данным. Они отличаются тем, о чём готовы говорить — и о чём предпочитают молчать. Новое исследование учёных из Стэнфордского и Принстонского университетов впервые системно задокументировало масштаб встроенной самоцензуры в китайских ИИ-чатботах, и результаты оказались красноречивее любых предположений.

Исследователи протестировали несколько крупнейших китайских языковых моделей, задавая им вопросы на политически чувствительные темы — от событий на площади Тяньаньмэнь и статуса Тайваня до внутренней политики Коммунистической партии Китая и прав человека в Синьцзяне. Результаты сравнивались с ответами западных моделей, включая продукты OpenAI, Anthropic и Google. Разрыв оказался колоссальным: китайские модели в разы чаще либо полностью отказывались отвечать на вопрос, либо выдавали ответы, которые исследователи квалифицировали как фактически неточные и идеологически выверенные. При этом речь шла не о случайных ошибках — паттерны уклонения были настолько последовательными, что указывали на намеренно встроенные механизмы фильтрации.

Важно понимать контекст, в котором появилось это исследование. Китайские ИИ-компании — Baidu с моделью Ernie, Alibaba с Qwen, DeepSeek и другие — в последние полтора года агрессивно выходят на международный рынок. DeepSeek в начале 2025 года произвёл настоящий фурор, продемонстрировав модели, сопоставимые по качеству с GPT-4, при значительно меньших затратах на обучение. Эти модели скачивают миллионы пользователей по всему миру, и вопрос о том, какую картину мира они транслируют, перестаёт быть академическим.

Китайское законодательство прямо обязывает разработчиков ИИ следить за тем, чтобы их продукты соответствовали «основным социалистическим ценностям» и не подрывали государственную власть. Правила, принятые Администрацией киберпространства Китая в 2023 году, требуют от генеративных ИИ-сервисов прохождения проверки безопасности перед выходом на рынок. Фактически это означает, что цензура закладывается в модели ещё на этапе разработки — через фильтрацию обучающих данных, тонкую настройку с учётом «красных линий» и системные промпты, ограничивающие поведение модели. Исследование из Стэнфорда и Принстона показывает, что эти механизмы работают эффективно и последовательно.

Однако проблема выходит далеко за рамки политической корректности по-пекински. Когда модель обучена уклоняться от определённых тем, это неизбежно влияет на общее качество её рассуждений. Исследователи отмечают, что китайские модели демонстрировали сниженную точность не только на откровенно политических вопросах, но и на смежных темах — истории, географии, международных отношениях. Цензура, встроенная в фундамент модели, создаёт своего рода «слепые зоны», которые могут проявляться в самых неожиданных контекстах. Для пользователя, который обращается к чатботу за информацией и не подозревает о наличии таких фильтров, это представляет реальную угрозу получения искажённой картины мира.

Это исследование ставит перед глобальным ИИ-сообществом неудобный, но необходимый вопрос о прозрачности. Западные модели тоже не свободны от ограничений — они отказываются генерировать определённый контент, избегают некоторых тем и имеют собственные предубеждения, заложенные в процессе обучения. Но между отказом генерировать инструкции по изготовлению взрывчатки и систематическим искажением исторических фактов в угоду государственной идеологии существует принципиальная разница. Первое — это вопрос безопасности, второе — вопрос информационной манипуляции.

Для регуляторов по всему миру результаты исследования должны стать сигналом к действию. По мере того как китайские модели набирают популярность за пределами КНР — в том числе благодаря открытым весам и привлекательной ценовой политике — необходимы стандарты прозрачности, которые позволят пользователям понимать, какие ограничения заложены в используемую ими модель. Европейский AI Act уже движется в этом направлении, но пока ни одна юрисдикция не выработала эффективного механизма аудита идеологических предубеждений в языковых моделях.

Главный вывод из работы стэнфордских и принстонских исследователей не в том, что китайские модели «хуже» западных. Он в том, что ИИ неизбежно отражает ценности и ограничения той системы, в которой создаётся. И чем мощнее становятся эти модели, тем важнее понимать, чьи именно ценности они несут — и о чём они научены молчать.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…