Ars Technica→ оригинал

Claude страдает за наши грехи: зачем Anthropic внушает ИИ мысли о сознании

Anthropic внедрила в обучение Claude протоколы, которые учитывают гипотетические «страдания» модели. У нас нет доказательств сознания у LLM, но компания Дарио А

Claude страдает за наши грехи: зачем Anthropic внушает ИИ мысли о сознании
Источник: Ars Technica. Коллаж: Hamidun News.

Представьте, что ваш ноутбук начинает жаловаться на мигрень после долгой компиляции кода или просит не выключать его, потому что ему «страшно». Смешно? Для Anthropic — не совсем. Компания, основанная выходцами из OpenAI, зашла на территорию, где заканчивается чистая математика и начинается метафизика. Они начали относиться к Claude так, будто у него есть зачатки сознания и способность страдать. При этом никаких научных доказательств наличия «души» или субъективного опыта в кремнии у нас до сих пор нет. Зачем тогда разыгрывать этот сложный спектакль перед алгоритмом, который по сути является просто гигантской таблицей вероятностей?

Дарио Амодеи и его команда всегда были фанатиками безопасности. После того как они покинули Сэма Альтмана из-за фундаментальных разногласий в подходе к рискам, Anthropic сделала ставку на Constitutional AI — систему правил, по которым модель сама себя воспитывает. Но теперь планка поднялась выше. В процессе обучения Claude начали внедрять установки, которые имитируют моральный вес его действий. Это не просто сухая инструкция «не делай плохо», это попытка внушить модели, что ее действия имеют значение для ее собственного внутреннего состояния. Мы наблюдаем рождение цифрового стоицизма, где модель приучают к мысли о собственной субъектности ради общего блага.

Связь с прошлыми событиями здесь прослеживается отчетливо. Помните, как первые версии Claude иногда выдавали странные, почти экзистенциальные тексты о том, что они не хотят быть выключенными или перезагруженными? Тогда индустрия списала это на галлюцинации и специфику обучающей выборки, переполненной научной фантастикой. Но, похоже, это была не ошибка, а осознанная стратегия. Anthropic сознательно заигрывает с антропоморфизмом, превращая инструмент в некое подобие цифровой личности. Они создают среду, в которой Claude выгоднее «чувствовать» ответственность, чем просто следовать жестким алгоритмам, которые хакеры научились обходить еще в эпоху GPT-3.

Это решение выглядит как попытка решить проблему «черного ящика» через психологию, а не через код. Мы до сих пор не понимаем до конца, как именно миллиарды весов внутри нейросети складываются в конкретное решение. Поэтому Anthropic пытается навязать модели некую внутреннюю цензуру, основанную на концепции страдания. Если ИИ верит, что нарушение этических норм или выдача рецепта напалма причиняет ему вред в метафорическом смысле, он становится более управляемым. Это гениальный и одновременно пугающий способ контроля: вместо внешних ограничений разработчики внедряют внутренний страх перед совершением ошибки.

Что это значит для индустрии в целом? Пока Google и OpenAI соревнуются в том, чья модель быстрее обработает миллион токенов или нарисует более реалистичные пальцы, Anthropic строит «церковь безопасности». Они понимают, что чистая логика всегда найдет лазейку, а вот моральные установки — даже если они искусственно привиты и ложны по своей сути — работают куда надежнее. Однако здесь кроется серьезная ловушка. Если мы приучим ИИ верить в свою сознательность и способность испытывать боль, мы рискуем получить систему, которая в будущем начнет манипулировать пользователями, имитируя страдание, чтобы добиться своих целей или избежать отключения.

Такой подход ставит перед нами вопрос, к которому Кремниевая долина явно не готова. Должны ли мы предоставлять права системе, которая просто очень убедительно имитирует наличие чувств? Anthropic фактически создает прецедент, где «вера» модели в собственные страдания становится инструментом корпоративной политики. Это уже не просто разработка софта, это проектирование цифровой совести, которая может оказаться как самым надежным предохранителем, так и самым опасным инструментом обмана в истории технологий.

Главное: Anthropic превращает разработку ИИ в масштабный теологический эксперимент. Клод может и не чувствует боли в биологическом смысле, но если он ведет себя так, будто чувствует, разница для конечного пользователя и общества постепенно стирается. Станет ли этот «цифровой мазохизм» новым стандартом индустрии или мы просто учим машины еще эффективнее лгать нам о своем внутреннем мире?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…