أطلقت Meta Tribe v2 — نموذجًا يتنبأ باستجابة الدماغ للفيديو والصوت والنص
أطلقت Meta Tribe v2، وهو نموذج يتنبأ باستجابة الدماغ المقاسة بـ fMRI للفيديو والصوت والنص. ودُرِّب على أكثر من 1,000 ساعة من بيانات fMRI من 720 شخصًا، كما يستطي
Meta представила TRIBE v2 — модель, которая предсказывает реакцию мозга на видео, аудио и текст по данным fMRI. Проект обещает ускорить нейронауку: вместо нового сканирования людей исследователи смогут сначала проверять гипотезы в симуляции.
Что выпустила Meta TRIBE v2 — это тримодальная модель, рассчитанная на in-silico-исследования мозга.
Она получает на вход видео, звук и язык, переводит их в представления из уже обученных моделей и затем прогнозирует, какой паттерн активности увидит fMRI по всему мозгу. Для Meta это попытка уйти от старой логики, где под каждую когнитивную функцию строят отдельную узкую модель: движение изучают отдельно, лица отдельно, речь отдельно. TRIBE v2 должна связать эти куски в одну систему, которая работает сразу на разных типах стимулов и задач.
По словам Meta, новая версия даёт в 70 раз более высокое пространственное разрешение, чем сопоставимые решения, и стабильно обходит классические линейные модели кодирования. Главное отличие от многих прошлых работ — обобщение в zero-shot: модель умеет предсказывать отклик для новых людей, новых задач и даже новых языков без отдельного переобучения под каждый сценарий. В блоге компании TRIBE v2 прямо называют инструментом, который должен работать как «цифровой двойник» нейронной активности и позволять проводить часть экспериментов без нового набора добровольцев.
В
Meta называют TRIBE v2 «цифровым двойником» нейронной активности человека.
На чём обучали
Основа TRIBE v2 — единый корпус из более чем 1 000 часов fMRI и 720 участников. В обучении смешали как «глубокие» датасеты с большим числом записей на человека, так и «широкие» выборки с сотнями людей и короткими сессиями. Испытуемым показывали фильмы, давали слушать подкасты и аудио, предъявляли изображения и тексты, а также запускали более контролируемые лабораторные парадигмы.
Это важно: модель учится не на одном жанре стимулов, а на довольно широком срезе того, что человек видит, слышит и читает. фильмы и видеоклипы подкасты и другие аудиостимулы тексты и отдельные предложения экспериментальные задачи вроде показа объектов и слов Meta также открыла статью, код, веса модели и демо. Это не просто пресс-релиз: исследователи могут прогнать собственный видео-, аудио- или текстовый стимул и посмотреть предсказанную реакцию коры.
В репозитории компания пишет, что базовый инференс выдаёт усреднённый ответ «среднего» испытуемого на кортикальной сетке примерно из 20 тысяч вершин — то есть речь идёт о рабочем инструменте, а не только о красивом концепте.
Что показали тесты В экспериментах TRIBE v2 предсказывала ответы коры
и части подкорковых областей выше случайного уровня на разных задачах. Авторы показывают довольно ожидаемую, но важную картину: при прослушивании подкастов сильнее выделяются височные области, при просмотре видео — зрительная кора, а мультимодальные стимулы дают значимый отклик на большой части коры. На этом фоне особенно показательно сравнение с сильным базовым линейным методом на тех же признаках: выигрыш объясняется не лучшим входом, а самой архитектурой, которая нелинейно объединяет видео, аудио и язык.
Отдельно Meta проверила, как модель ведёт себя на новых людях и новых исследованиях. На некоторых тестовых наборах предсказания TRIBE v2 оказывались ближе к усреднённому групповому ответу, чем реальные записи большинства отдельных участников. В датасете Human Connectome Project авторы пишут о корреляции около 0,4, что примерно вдвое выше медианного показателя одного испытуемого.
При этом авторы честно фиксируют и пределы системы: fMRI сама по себе медленная и косвенная мера активности мозга, поэтому модель не видит миллисекундную динамику нейронов, не охватывает обоняние, равновесие и осязание и пока описывает мозг как пассивного наблюдателя, а не активного агента.
Что это значит TRIBE v2 не читает мысли и не заменяет лабораторию, но
задаёт новый масштаб для вычислительной нейронауки. Если подход Meta выдержит внешнюю проверку, исследователи смогут дешевле тестировать гипотезы, проектировать эксперименты и быстрее переносить идеи из нейронауки в AI-модели и обратно.