NVIDIA BioNeMo позволяет дообучать биологические AI-модели методом LoRA за часы
NVIDIA выпустила BioNeMo Recipes — готовые пайплайны для дообучения фундаментальных биологических AI-моделей методом LoRA. Два флагмана: ESM2 (белки) и Evo 2…
AI-обработка оригинала NVIDIA Developer Blog; редакция Hamidun News
NVIDIA BioNeMo выпустила набор готовых «рецептов» для дообучения фундаментальных биологических моделей методом LoRA (Low-Rank Adaptation). Инструментарий позволяет командам исследователей адаптировать крупные языковые модели для белков и ДНК к конкретным научным задачам без суперкомпьютерных ресурсов.
Фундаментальные модели в биологии
Вычислительная биология переживает трансформацию, аналогичную той, что NLP пережил с BERT. Предобученные на миллиардах биологических последовательностей модели фиксируют статистические закономерности, которые плохо описываются классическими правилами, но хорошо улавливаются трансформерами. BioNeMo Recipes работает с двумя флагманскими моделями.
ESM2 — языковая модель для белков от Meta, обученная на UniRef50. Она анализировала сотни миллионов аминокислотных последовательностей и научилась предсказывать структурные и функциональные свойства белков; версии варьируются от 8 миллионов до 15 миллиардов параметров. Evo 2 — языковая модель для ДНК от Arc Institute, обученная на 9,3 триллионах нуклеотидов из геномов 128 000 видов.
Она предсказывает функциональные регуляторные элементы и моделирует последствия геномных мутаций. Оба класса моделей хорошо переносятся на специализированные задачи: аннотация белковых функций, предсказание субклеточной локализации, оценка патогенности вариантов. Но полное переобучение таких моделей — дорого и долго.
Почему
LoRA меняет расчёты LoRA вместо обновления всех весов добавляет к слоям трансформера компактные матрицы низкого ранга — остальные параметры заморожены. Только эти небольшие вставки и проходят через обратное распространение ошибки. Ключевые числа для биологических моделей: Число обучаемых параметров сокращается на 90–99% ESM2 с 3 млрд параметров с LoRA умещается на 1–2 GPU вместо десятков A100 Стоимость эксперимента падает с тысяч до единиц долларов за GPU-час Продолжительность обучения сокращается с недель до нескольких часов * Качество на узкоспециализированных задачах сопоставимо с полным дообучением Для биологии это принципиально важно: лабораторные датасеты часто невелики — сотни или тысячи примеров.
Переобучение всей крупной модели на таком объёме ведёт к потере обобщения, тогда как LoRA с минимальным числом новых параметров справляется заметно лучше.
Что входит в
BioNeMo Recipes BioNeMo Recipes — это готовые конфигурационные пайплайны с документацией, примерами и тестами. Исследователь выбирает модель, задачу и датасет, после чего рецепт автоматически выставляет гиперпараметры, настраивает загрузку весов и логирование. Инструментарий включает: Поддержку LoRA и полного дообучения для ESM2 и Evo 2 Интеграцию с NVIDIA NeMo Framework и DGX-инфраструктурой Готовые форматы для белковых и геномных датасетов Логирование через Weights & Biases и автоматические чекпоинты Целевая аудитория — биомедицинские группы и фармкомпании, которым нужна специализация модели под конкретный организм, тип белка или заболевание. Типичные задачи: предсказание токсичности терапевтических белков, поиск функциональных сайтов в геноме, оценка патогенности редких вариантов, дизайн ферментов с заданными свойствами.
Что это значит BioNeMo Recipes снижает барьер входа для команд без большой ML-инфраструктуры.
Фармацевтическая лаборатория или академическая группа с двумя GPU теперь может специализировать фундаментальную модель под свои условия. Это ускоряет путь от научной гипотезы до вычислительного инструмента — и, в перспективе, от открытия до терапии. *Meta признана экстремистской организацией и запрещена в РФ.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.