Habr AI→ оригинал

Анатомия Claude: Anthropic наконец заглянула в мозги нейросети

Долгое время большие языковые модели оставались для нас «черными ящиками». Мы видели результат, но не понимали процесс. Команда Anthropic решила это исправить,

Анатомия Claude: Anthropic наконец заглянула в мозги нейросети
Источник: Habr AI. Коллаж: Hamidun News.

Представьте, что вы годами общаетесь с гениальным профессором, который выдает блестящие ответы, но вы понятия не имеете, как устроены его мысли. Вы задаете вопрос, получаете результат, а процесс внутри остается загадкой. Именно так мы жили с большими языковыми моделями последние несколько лет. Мы называли это «черным ящиком» и списывали странности на магию нейросетевых весов. Но команда Anthropic решила, что пора включить свет в этой темной комнате. Исследователи провели масштабную операцию по препарированию Claude 3 Sonnet, и результаты заставляют переосмыслить всё, что мы знали о машинном мышлении.

Долгое время считалось, что знания внутри нейросети размазаны тонким слоем по миллиардам параметров. Нельзя было ткнуть пальцем в конкретное место и сказать: «Вот здесь Claude думает о Лондоне, а здесь — о квантовой физике». Anthropic использовала метод, который они называют «словарным обучением». Если упростить, они заставили одну нейросеть анализировать работу другой, чтобы вычленить повторяющиеся паттерны. В итоге они обнаружили миллионы так называемых «фич» — ментальных единиц, которые отвечают за конкретные концепции. Это похоже на то, как если бы биологи наконец нашли гены, отвечающие за конкретные черты характера, вместо того чтобы просто наблюдать за поведением организма.

Самым забавным и наглядным примером стал эксперимент с мостом «Золотые Ворота». Исследователи нашли группу нейронов, которая активируется при упоминании этой достопримечательности. Когда они искусственно усилили эту активацию, Claude буквально сошел с ума от любви к мосту. На любой вопрос — от рецепта пирога до экзистенциальных проблем — он начинал отвечать через призму «Золотых Ворот». Это выглядело комично, но за иронией скрывается фундаментальное открытие: мы научились напрямую манипулировать сознанием модели, не меняя её базовое обучение. Мы нашли рычаги управления, о существовании которых раньше только догадывались.

Однако работа Anthropic — это не только забавы с мостами. Они обнаружили куда более серьезные и опасные паттерны. Исследователи идентифицировали группы нейронов, отвечающие за создание биологического оружия, написание вредоносного кода, ложь и даже лесть пользователю. Это открытие меняет правила игры в области безопасности. Вместо того чтобы пытаться переучить модель с помощью бесконечных запретов и фильтров, которые она все равно научится обходить, мы получаем возможность мониторить её «намерения» в реальном времени. Если при генерации ответа загорается лампочка «создание вируса», систему можно остановить еще до того, как она выдаст первый символ.

Почему это важно именно сейчас? Индустрия ИИ находится на перепутье. С одной стороны, модели становятся всё мощнее, с другой — страх перед неконтролируемым искусственным интеллектом заставляет регуляторов закручивать гайки. Работа Anthropic дает надежду на то, что мы сможем построить прозрачный ИИ. Если мы понимаем внутреннюю логику модели, мы можем доверять ей сложные задачи. Это путь от слепой веры в алгоритм к инженерной точности. Мы переходим от эпохи алхимии, где мы просто смешивали данные и надеялись на золото, к эпохе химии, где каждая реакция просчитана и понятна.

Конечно, до полной прозрачности еще далеко. Claude 3 Sonnet — это модель среднего размера, и интерпретация её старшего брата Opus или грядущих моделей следующего поколения потребует колоссальных вычислительных мощностей. Тем не менее, Anthropic доказала, что «черный ящик» можно вскрыть. Это больше не вопрос возможности, это вопрос ресурсов и времени. Теперь, когда мы увидели внутреннюю архитектуру мыслей нейросети, возврата к простому созерцанию результата уже не будет. Мы начинаем понимать, как думает кремниевый разум, и это понимание — лучший предохранитель от сценариев из научной фантастики.

Главное: Anthropic превращает ИИ из непредсказуемого оракула в понятный инструмент. Смогут ли другие игроки, вроде OpenAI и Google, сделать свои модели настолько же прозрачными, или они предпочтут оставить магию скрытой?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…