MarkTechPost→ оригинал

Meta lançou o Tribe v2 — um modelo que prevê a resposta do cérebro a vídeo, áudio e texto

A Meta lançou o Tribe v2, um modelo que prevê a resposta de fMRI do cérebro a vídeo, áudio e texto. Ele foi treinado com mais de 1.000 horas de dados de fMRI de

◐ Слушать статью

Meta представила TRIBE v2 — модель, которая предсказывает реакцию мозга на видео, аудио и текст по данным fMRI. Проект обещает ускорить нейронауку: вместо нового сканирования людей исследователи смогут сначала проверять гипотезы в симуляции.

Что выпустила Meta TRIBE v2 — это тримодальная модель, рассчитанная на in-silico-исследования мозга.

Она получает на вход видео, звук и язык, переводит их в представления из уже обученных моделей и затем прогнозирует, какой паттерн активности увидит fMRI по всему мозгу. Для Meta это попытка уйти от старой логики, где под каждую когнитивную функцию строят отдельную узкую модель: движение изучают отдельно, лица отдельно, речь отдельно. TRIBE v2 должна связать эти куски в одну систему, которая работает сразу на разных типах стимулов и задач.

По словам Meta, новая версия даёт в 70 раз более высокое пространственное разрешение, чем сопоставимые решения, и стабильно обходит классические линейные модели кодирования. Главное отличие от многих прошлых работ — обобщение в zero-shot: модель умеет предсказывать отклик для новых людей, новых задач и даже новых языков без отдельного переобучения под каждый сценарий. В блоге компании TRIBE v2 прямо называют инструментом, который должен работать как «цифровой двойник» нейронной активности и позволять проводить часть экспериментов без нового набора добровольцев.

В

Meta называют TRIBE v2 «цифровым двойником» нейронной активности человека.

На чём обучали

Основа TRIBE v2 — единый корпус из более чем 1 000 часов fMRI и 720 участников. В обучении смешали как «глубокие» датасеты с большим числом записей на человека, так и «широкие» выборки с сотнями людей и короткими сессиями. Испытуемым показывали фильмы, давали слушать подкасты и аудио, предъявляли изображения и тексты, а также запускали более контролируемые лабораторные парадигмы.

Это важно: модель учится не на одном жанре стимулов, а на довольно широком срезе того, что человек видит, слышит и читает. фильмы и видеоклипы подкасты и другие аудиостимулы тексты и отдельные предложения экспериментальные задачи вроде показа объектов и слов Meta также открыла статью, код, веса модели и демо. Это не просто пресс-релиз: исследователи могут прогнать собственный видео-, аудио- или текстовый стимул и посмотреть предсказанную реакцию коры.

В репозитории компания пишет, что базовый инференс выдаёт усреднённый ответ «среднего» испытуемого на кортикальной сетке примерно из 20 тысяч вершин — то есть речь идёт о рабочем инструменте, а не только о красивом концепте.

Что показали тесты В экспериментах TRIBE v2 предсказывала ответы коры

и части подкорковых областей выше случайного уровня на разных задачах. Авторы показывают довольно ожидаемую, но важную картину: при прослушивании подкастов сильнее выделяются височные области, при просмотре видео — зрительная кора, а мультимодальные стимулы дают значимый отклик на большой части коры. На этом фоне особенно показательно сравнение с сильным базовым линейным методом на тех же признаках: выигрыш объясняется не лучшим входом, а самой архитектурой, которая нелинейно объединяет видео, аудио и язык.

Отдельно Meta проверила, как модель ведёт себя на новых людях и новых исследованиях. На некоторых тестовых наборах предсказания TRIBE v2 оказывались ближе к усреднённому групповому ответу, чем реальные записи большинства отдельных участников. В датасете Human Connectome Project авторы пишут о корреляции около 0,4, что примерно вдвое выше медианного показателя одного испытуемого.

При этом авторы честно фиксируют и пределы системы: fMRI сама по себе медленная и косвенная мера активности мозга, поэтому модель не видит миллисекундную динамику нейронов, не охватывает обоняние, равновесие и осязание и пока описывает мозг как пассивного наблюдателя, а не активного агента.

Что это значит TRIBE v2 не читает мысли и не заменяет лабораторию, но

задаёт новый масштаб для вычислительной нейронауки. Если подход Meta выдержит внешнюю проверку, исследователи смогут дешевле тестировать гипотезы, проектировать эксперименты и быстрее переносить идеи из нейронауки в AI-модели и обратно.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…