IEEE Spectrum AI→ оригинал

Nouvelle frontière de l'IA : des données à l'expérience d'interaction

Современный ИИ достиг впечатляющих результатов благодаря большим данным. Однако дальнейший прогресс требует интерактивных сред обучения, где модели могут экспер

Nouvelle frontière de l'IA : des données à l'expérience d'interaction
Источник: IEEE Spectrum AI. Коллаж: Hamidun News.

Последнее десятилетие прогресс в области искусственного интеллекта измерялся масштабом: более крупные модели, большие наборы данных и больше вычислительных мощностей. Такой подход привел к поразительным прорывам в больших языковых моделях (LLM). Всего за пять лет ИИ совершил скачок от моделей, таких как GPT-2, которые едва могли имитировать связность, до систем, подобных GPT-4, которые могут рассуждать и участвовать в содержательном диалоге. И теперь ранние прототипы ИИ-агентов, которые могут перемещаться по базам кода или просматривать веб-страницы, указывают на совершенно новый рубеж.

Но один только размер может завести ИИ лишь настолько далеко. Следующий скачок произойдет не только за счет увеличения размеров моделей. Он произойдет за счет объединения все более качественных данных с мирами, которые мы строим для обучения моделей. И самый важный вопрос становится следующим: как выглядят классы для ИИ?

В последние несколько месяцев Кремниевая долина сделала свои ставки, и лаборатории инвестируют миллиарды в строительство таких классов, которые называются средами обучения с подкреплением (RL). Эти среды позволяют машинам экспериментировать, терпеть неудачи и совершенствоваться в реалистичных цифровых пространствах.

История современного ИИ разворачивалась эпохами, каждая из которых определялась типом данных, которые потребляли модели. Сначала наступила эпоха предварительного обучения на наборах данных интернет-масштаба. Эти общедоступные данные позволили машинам имитировать человеческий язык, распознавая статистические закономерности. Затем появились данные в сочетании с обучением с подкреплением на основе обратной связи с человеком — метод, который использует работников краудсорсинга для оценки ответов LLM, — что сделало ИИ более полезным, отзывчивым и соответствующим предпочтениям человека.

Сегодня данные по-прежнему являются основой. Это сырье, из которого строится интеллект. Но мы вступаем в новую фазу, когда одних данных уже недостаточно. Чтобы открыть следующий рубеж, мы должны сочетать высококачественные данные со средами, которые позволяют неограниченное взаимодействие, непрерывную обратную связь и обучение посредством действий. Среды RL не заменяют данные; они усиливают то, что данные могут сделать, позволяя моделям применять знания, проверять гипотезы и совершенствовать поведение в реалистичных условиях.

В среде RL модель учится посредством простого цикла: она наблюдает за состоянием мира, совершает действие и получает вознаграждение, которое указывает, помогло ли это действие достичь цели. За множество итераций модель постепенно обнаруживает стратегии, которые приводят к лучшим результатам. Важный сдвиг заключается в том, что обучение становится интерактивным — модели не просто предсказывают следующий токен, но и улучшаются посредством проб, ошибок и обратной связи.

Например, языковые модели уже могут генерировать код в простой настройке чата. Поместите их в живую среду кодирования, где они могут получать контекст, запускать свой код, отлаживать ошибки и улучшать свое решение, и кое-что изменится. Они переходят от консультирования к автономному решению проблем.

В мире, управляемом программным обеспечением, способность ИИ генерировать и тестировать код производственного уровня в обширных репозиториях станет серьезным изменением в возможностях. Этот скачок произойдет не только за счет увеличения наборов данных; он произойдет из-за иммерсивных сред, где агенты могут экспериментировать, спотыкаться и учиться посредством итераций — во многом так же, как это делают программисты-люди. Реальный мир разработки беспорядочен: программистам приходится иметь дело с недостаточно определенными ошибками, запутанными базами кода и расплывчатыми требованиями.

Обучение ИИ справляться с этим беспорядком — единственный способ, которым он когда-либо перейдет от создания подверженных ошибкам попыток к созданию последовательных и надежных решений.

Навигация в Интернете также является беспорядочной. Всплывающие окна, стены входа в систему, неработающие ссылки и устаревшая информация вплетены в повседневные рабочие процессы просмотра. Люди справляются с этими сбоями почти инстинктивно, но ИИ может развить эту возможность только путем обучения в средах, которые имитируют непредсказуемость Интернета. Агенты должны научиться восстанавливаться после ошибок, распознавать и преодолевать препятствия пользовательского интерфейса, а также выполнять многоэтапные рабочие процессы в широко используемых приложениях.

Каждый крупный скачок в развитии ИИ опирался на невидимую инфраструктуру, такую как аннотаторы, маркирующие наборы данных, исследователи, обучающие модели вознаграждения, и инженеры, строящие леса для использования LLM инструментов и действий. Поиск больших объемов и высококачественных наборов данных когда-то был узким местом в ИИ, и решение этой проблемы вызвало предыдущую волну прогресса. Сегодня узким местом являются не данные — это создание сред RL, которые являются богатыми, реалистичными и действительно полезными.

Следующий этап прогресса ИИ не будет случайностью масштаба. Это будет результатом объединения прочной основы данных с интерактивными средами, которые учат машины действовать, адаптироваться и рассуждать в сложных реальных сценариях. Песочницы кодирования, игровые площадки для ОС и браузеров, а также безопасное моделирование превратят предсказание в компетентность.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…