Habr AI→ оригинал

EMNLP 2025: Почему нейросети теперь проверяют сами себя (и почему это сложно)

На конференции EMNLP 2025 стало окончательно ясно: эпоха, когда качество перевода оценивали только люди, подходит к концу. Теперь индустрия делает ставку на авт

EMNLP 2025: Почему нейросети теперь проверяют сами себя (и почему это сложно)
Источник: Habr AI. Коллаж: Hamidun News.

Представьте, что вы написали сложное сочинение, но проверять его идет не строгая учительница с красной ручкой, а ваш чуть более начитанный одноклассник. Примерно так сейчас выглядит индустрия машинного перевода. Конференция EMNLP 2025 в Майами в очередной раз подтвердила главный тренд последних лет: мы окончательно доверили нейросетям проверку других нейросетей. Если раньше для оценки качества перевода нам требовались толпы лингвистов и экспертов, то теперь этот процесс ложится на плечи больших языковых моделей. Это не просто вопрос экономии денег, это вопрос выживания в мире, где данных становится слишком много для человеческого восприятия.

Команда Яндекса приехала на конференцию не просто в качестве слушателей. Ребята привезли две серьезные работы, которые показывают, как именно меняется подход к оценке текстов. Катя Еникеева, руководящая аналитикой перевода, подчеркивает важный нюанс: научить модель переводить — это только половина дела. Намного сложнее научить её понимать, где именно она ошиблась. Это требует от LLM совершенно иного уровня рефлексии. Модель должна выступать в роли критика, который видит не только грамматику, но и искажения смысла, потерю стиля или неуместный тон. Именно такие решения сейчас определяют, насколько бесшовно будет работать перевод видео в вашем браузере или поиск по иностранным сайтам.

Почему это важно именно сейчас? Мы уперлись в потолок классических метрик. Старые добрые алгоритмы вроде BLEU, которые просто сравнивали количество одинаковых слов в оригинале и переводе, больше не работают. Они не понимают иронии, не видят контекста и легко ставят высокую оценку тексту, который полностью искажает суть. На смену им приходят сложные пайплайны, где одна модель анализирует исходник, вторая — результат, а третья выносит вердикт. Это создает своего рода интеллектуальную экосистему, внутри которой качество растет за счет постоянного внутреннего аудита. На EMNLP 2025 стало очевидно, что те, кто не научится строить такие системы оценки, безнадежно отстанут в гонке за качеством генерации.

Яндекс представил свои наработки в двух ключевых секциях: Findings основной конференции и на воркшопе WMT. Это признание мировым сообществом того, что российские инженеры задают планку в одной из самых сложных областей — автоматической оценке качества. Важно понимать, что за академическими названиями статей стоят вполне прикладные вещи. Когда вы открываете страницу на китайском и через секунду читаете связный текст на русском, за этим стоит не только мощная модель-переводчик, но и еще более мощная система контроля, которая в реальном времени отсекает галлюцинации и ошибки. Без этого контроля мы бы до сих пор читали «надмозговые» переводы из начала нулевых.

Индустрия движется к полной автоматизации цикла обучения. В идеальном мире (который уже почти наступил) модель генерирует данные, другая модель их оценивает, и на основе этой оценки первая модель дообучается. Человек здесь остается лишь в роли верховного судьи, который задает общие правила игры. Однако здесь кроется и главная ловушка: если оценивающая модель начнет ошибаться или поощрять «красивую ложь», вся система пойдет под откос. Проблема галлюцинаций в оценке — это следующий большой вызов, о котором много говорили в кулуарах конференции. Мы учим нейросети быть честными критиками, но они всё еще пытаются быть просто удобными собеседниками.

Главное: эпоха ручной разметки данных официально стала элитарным и очень дорогим хобби. Будущее за автоматическими метриками на базе LLM, и работы Яндекса на EMNLP 2025 показывают, что мы находимся в авангарде этого процесса. Смогут ли нейросети-критики превзойти людей в понимании контекста уже в этом году?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…