Jiqizhixin (机器之心)→ оригинал

DeepMind и «майнинг» функций активации: почему ReLU пора на пенсию

DeepMind представила новый подход к поиску функций активации, используя методы, напоминающие майнинг. Вместо того чтобы вручную выводить формулы, исследователи

DeepMind и «майнинг» функций активации: почему ReLU пора на пенсию
Источник: Jiqizhixin (机器之心). Коллаж: Hamidun News.

Десятилетиями мы жили в мире, где функция активации ReLU была незыблемым стандартом. Она проста, как кирпич, и эффективна ровно настолько, чтобы не мешать нейросетям учиться. Но давайте будем честны: ReLU (Rectified Linear Unit) стала популярной не потому, что она идеальна, а потому, что в 2012 году у нас не было ресурсов пробовать что-то посложнее.

Теперь DeepMind решила, что пора перестать гадать на кофейной гуще и превратила поиск математических формул в настоящий промышленный майнинг. Команда исследователей построила то, что они называют «вычислительным прииском». Идея проста и одновременно безумна: если мы не знаем, какая математическая функция лучше всего подходит для глубокого обучения, давайте просто переберем их все.

Это классический метод грубой силы, доведенный до абсолюта. Вместо того чтобы заставлять математиков годами выводить элегантные доказательства, DeepMind бросила на амбразуру тысячи графических процессоров, чтобы те «выкопали» идеальный алгоритм. Почему это происходит именно сейчас?

Рынок LLM уперся в потолок эффективности. Мы бесконечно наращиваем количество параметров, но базовые блоки моделей почти не меняются. DeepMind осознали, что даже крошечный прирост эффективности на уровне функции активации в масштабах GPT-4 или Gemini экономит миллионы долларов на электричестве и неделях обучения.

Это не просто академический интерес, это чистая экономика. В процессе своего «майнинга» система тестировала миллионы комбинаций математических операторов. Исследователи искали функции, которые не только показывают высокую точность на бумаге, но и «дружат» с современным железом.

Оказалось, что многие теоретически сильные функции слишком сложны для вычислений на GPU, что делает их бесполезными в реальном продакшене. DeepMind же искала золотую середину — вычислительную легкость и математическую гибкость. Результаты впечатляют.

Найденные функции обходят не только старую добрую ReLU, но и более современные альтернативы вроде Swish или GeLU. Самое интересное здесь — это смещение парадигмы. Мы переходим от эпохи «умных людей, придумывающих алгоритмы» к эпохе «умных систем, выращивающих алгоритмы».

Это и есть настоящий AutoML, о котором мечтали последние пять лет, только теперь он добрался до самого фундамента нейронных связей. Что это значит для индустрии? Скорее всего, в следующем поколении больших языковых моделей мы увидим архитектуры, которые покажутся нам странными.

Там будут использоваться функции, которые человек в здравом уме никогда бы не вывел на доске, потому что они не выглядят «красиво» с точки зрения классического матанализа. Но они будут работать. И работать быстрее всего, что мы видели раньше.

Главное: DeepMind наглядно показала, что «золотая лихорадка» в AI перемещается из области гигантских датасетов в область переизобретения базовой математики. Если вы думали, что основы глубокого обучения уже зацементированы, приготовьтесь — их только что начали сносить отбойным молотком.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…