Jiqizhixin (机器之心)→ оригинал

304 نموذج LLM صينية: لماذا بين مئات الشبكات العصبية لم يجدوا الملك

В Китае подвели итоги масштабного теста 304 языковых моделей. Спойлер: «универсального короля» не существует. Пока разработчики плодят нейросети в рамках «битвы

304 نموذج LLM صينية: لماذا بين مئات الشبكات العصبية لم يجدوا الملك
Источник: Jiqizhixin (机器之心). Коллаж: Hamidun News.

Помните времена, когда каждый новый анонс из Китая сопровождался криками о «смерти GPT-4»? Так вот, пыль немного осела, и исследователи решили провести масштабную инвентаризацию того, что на самом деле наплодила знаменитая «битва тысячи моделей». Результаты оказались отрезвляющими.

После тестирования 304 китайских больших языковых моделей выяснилось, что никакого универсального лидера на рынке нет. Одна модель отлично пишет код, вторая мастерски притворяется поэтом, а третья неплохо справляется с логикой, но объединить всё это в одном «флаконе» пока не удается никому. Мы наблюдаем ситуацию, когда количество перешло во что угодно, только не в качество.

Главная проблема сейчас даже не в том, что модели недостаточно умны. Индустрия столкнулась с так называемым «тупиком оценки». Когда у вас в стране три сотни нейросетей, проверить каждую на адекватность становится задачей эпических масштабов.

Традиционные бенчмарки давно скомпрометированы: разработчики просто «подсматривают» ответы в тестах и обучают на них свои модели. Чтобы получить честный результат, нужны живые люди или сложнейшие каскадные проверки, а это стоит баснословных денег. В какой-то момент процесс аудита AI стал обходиться компаниям едва ли не дороже, чем сама аренда видеокарт для обучения.

На этом фоне решение от команды ReLE выглядит как попытка спасти бюджеты венчурных капиталистов. Они предложили архитектуру Reinforcement Learning from Evaluation. Если не вдаваться в дебри формул, то это способ оптимизировать сам процесс тестирования.

Вместо того чтобы прогонять модель через тысячи однотипных вопросов, система обучается выбирать только самые информативные и сложные задачи. Это как если бы на экзамене профессор сразу задавал вам три самых каверзных вопроса вместо того, чтобы три часа мучить по всей программе. Результат тот же, а времени и ресурсов тратится на 70% меньше.

Почему это важно для нас? Китайский рынок AI всегда был гипертрофированным отражением глобальных трендов. Если они начали массово жаловаться на стоимость оценки, значит, скоро эта проблема накроет и западные стартапы.

Мы входим в эру, когда «эффективность» становится важнее «мощности». Инвесторы больше не хотят слышать о том, сколько триллионов параметров вы запихнули в модель. Они хотят знать, как вы собираетесь доказывать её работоспособность, не потратив на это весь следующий раунд финансирования.

Интересно и то, как меняется ландшафт разработки. Пока гиганты вроде Baidu или Alibaba пытаются построить те самые универсальные системы, маленькие команды находят спасение в узкой специализации. Исследование показало, что специализированные модели часто обходят «универсалов» в своих нишах, при этом требуя в десятки раз меньше ресурсов.

Это ставит под вопрос саму концепцию создания одной нейросети, которая будет и борщ варить, и ракеты в космос запускать. Возможно, будущее не за одним королем, а за слаженным советом министров. Главное: эпоха бездумного масштабирования заканчивается.

Теперь победит не тот, кто обучит самую большую модель, а тот, кто научится быстрее и дешевле всех отделять зерна от плевел. Сможет ли ReLE стать новым стандартом индустрии или это лишь временная заплатка на раздутом рынке?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…