Habr AI→ оригинал

97 часов на одной видеокарте: эксперимент с самообучающейся нейросетью и ловушка красивых метрик

Независимый разработчик потратил 97,5 GPU-часов на одной RTX 4090, пытаясь создать архитектуру, позволяющую языковой модели подключать новые «навыки» без переоб

97 часов на одной видеокарте: эксперимент с самообучающейся нейросетью и ловушка красивых метрик
Источник: Habr AI. Коллаж: Hamidun News.

Представьте: вы берёте языковую модель и хотите добавить ей новый навык — скажем, умение решать дифференциальные уравнения или писать код на Rust. Стандартный путь — дообучение, которое требует данных, вычислительных ресурсов и неизбежно ведёт к катастрофическому забыванию, когда модель теряет старые способности, приобретая новые. А что если навыки можно подключать как приложения к смартфону — быстро, модульно, без побочных эффектов? Именно эту идею решил проверить независимый исследователь, опубликовавший подробный отчёт на Хабре. Результат — 97,5 часов работы одной RTX 4090, 22 итерации экспериментов и одно из самых поучительных разочарований в области машинного обучения за последнее время.

Сама по себе концепция модульного расширения языковых моделей не нова. В индустрии давно обсуждаются подходы вроде LoRA-адаптеров, mixture of experts и различных плагинных архитектур. Идея автора шла дальше: создать систему, в которой модель могла бы не просто использовать внешние модули, а фактически улучшать саму себя, интегрируя новые компетенции в свою работу без полного цикла переобучения. Звучит как святой Грааль для тех, кто работает с ограниченными вычислительными ресурсами — а это подавляющее большинство независимых исследователей и небольших команд, у которых нет доступа к кластерам из тысяч GPU.

Технически архитектура заработала. Модули подключались, система функционировала стабильно, метрики на валидационных наборах данных выглядели убедительно. Исследователь прошёл через два десятка итераций, каждый раз уточняя подход, и в какой-то момент цифры стали по-настоящему красивыми. Потери снижались, точность росла, графики обучения демонстрировали именно ту динамику, которую хочет видеть любой специалист по машинному обучению. На бумаге всё выглядело как успех.

А потом наступил момент истины — проверка на реальных задачах. И здесь произошло то, что знакомо многим практикам, но о чём редко говорят вслух: модель, которая демонстрировала блестящее владение «языком математики» по формальным метрикам, оказалась совершенно неспособна решать конкретные математические задачи. Она научилась имитировать форму, не освоив содержание. Генерировала правдоподобно выглядящие выкладки, использовала корректную нотацию, выстраивала логичные на первый взгляд цепочки рассуждений — но ответы были неверными. Это классический пример того, что в сообществе называют Goodhart's law в применении к машинному обучению: когда метрика становится целью, она перестаёт быть хорошей метрикой.

Этот случай высвечивает одну из фундаментальных проблем современного машинного обучения — разрыв между оптимизацией метрик и реальной компетентностью. Языковые модели чрезвычайно хороши в обнаружении статистических паттернов и их воспроизведении. Но воспроизведение паттерна и понимание стоящей за ним логики — это принципиально разные вещи. Модель может выучить, что после определённых математических выражений обычно следуют определённые символы, не усвоив при этом, почему именно эти символы там стоят. Для исследователя, который смотрит на loss-кривую и accuracy, разница невидима до тех пор, пока система не сталкивается с задачей, требующей настоящего обобщения.

Но история на этом не заканчивается, и именно финал делает её по-настоящему интересной. По словам автора, модель в итоге «нашла выход сама» — то есть при определённых условиях система начала демонстрировать поведение, которое не было явно запрограммировано. Подробности этого прорыва заслуживают отдельного внимания, потому что они затрагивают одну из самых горячих тем в исследованиях искусственного интеллекта: способность моделей к эмерджентному поведению, когда из простых правил возникают сложные и неожиданные стратегии решения задач. Является ли это настоящей эмерджентностью или просто удачным совпадением архитектурных решений — вопрос открытый, но сам факт заслуживает пристального изучения.

Этот эксперимент важен не столько своими конкретными результатами, сколько уроками, которые из него следуют. Во-первых, он напоминает о хрупкости метрик как инструмента оценки прогресса. Во-вторых, демонстрирует, что серьёзные исследования в области языковых моделей всё ещё возможны на потребительском оборудовании — пусть и с серьёзными ограничениями. В-третьих, подчёркивает ценность открытой публикации неудач: индустрия, одержимая рекордными бенчмарками и пресс-релизами об очередных прорывах, остро нуждается в честных историях о том, как красивые идеи разбиваются о реальность. Именно такие истории двигают науку вперёд — не победные реляции, а тщательный разбор того, что пошло не так и почему.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…