NVIDIA BioNeMo позволяет дообучать биологические AI-модели методом LoRA за часы
NVIDIA выпустила BioNeMo Recipes — готовые пайплайны для дообучения фундаментальных биологических AI-моделей методом LoRA. Два флагмана: ESM2 (белки) и Evo 2…
Processado por IA de NVIDIA Developer Blog; editado por Hamidun News
NVIDIA BioNeMo lançou um conjunto de "receitas" prontas para fine-tuning de modelos biológicos fundamentais usando LoRA (Low-Rank Adaptation). O kit permite que equipes de pesquisa adaptem grandes modelos de linguagem para proteínas e DNA a tarefas científicas específicas sem recursos de supercomputação.
Modelos Fundamentais em Biologia
A biologia computacional está passando por uma transformação semelhante à que o NLP experimentou com BERT. Modelos pré-treinados em bilhões de sequências biológicas capturam padrões estatísticos que são mal descritos por regras clássicas, mas bem capturados por transformers. BioNeMo Recipes funciona com dois modelos principais.
ESM2 — um modelo de linguagem para proteínas da Meta, treinado em UniRef50. Analisou centenas de milhões de sequências de aminoácidos e aprendeu a prever propriedades estruturais e funcionais de proteínas; as versões variam de 8 milhões a 15 bilhões de parâmetros.
Evo 2 — um modelo de linguagem para DNA do Arc Institute, treinado em 9,3 trilhões de nucleotídeos de genomas de 128.000 espécies. Ele prevê elementos regulatórios funcionais e modela as consequências de mutações genômicas.
Ambas as classes de modelos se transferem bem para tarefas especializadas: anotação de função proteica, previsão de localização subcelular, avaliação da patogenicidade de variantes. Mas o fine-tuning completo de tais modelos é caro e demorado.
Por Que LoRA Muda o Cálculo
LoRA, em vez de atualizar todos os pesos, adiciona matrizes compactas de baixo escalão às camadas de transformer — os parâmetros restantes são congelados. Apenas essas pequenas inserções passam pela retropropagação.
Números-chave para modelos biológicos:
- Número de parâmetros treináveis reduz em 90–99%
- ESM2 com 3 bilhões de parâmetros com LoRA se encaixa em 1–2 GPUs em vez de dezenas de A100s
- Custo do experimento cai de milhares para dólares únicos por hora de GPU
- Duração do treinamento reduz de semanas para poucas horas
- Qualidade em tarefas especializadas estreitas é comparável ao fine-tuning completo
Para a biologia isso é fundamentalmente importante: datasets de laboratório frequentemente são pequenos — centenas ou milhares de exemplos. Fine-tuning do modelo grande inteiro em tal volume leva a perda de generalização, enquanto LoRA com número mínimo de parâmetros novos funciona notavelmente melhor.
O Que Está em BioNeMo Recipes
BioNeMo Recipes é um conjunto de pipelines de configuração prontos com documentação, exemplos e testes. Um pesquisador seleciona um modelo, tarefa e dataset, após o qual a receita automaticamente define hiperparâmetros, configura carregamento de pesos e logging.
O kit inclui:
- Suporte para LoRA e fine-tuning completo para ESM2 e Evo 2
- Integração com NVIDIA NeMo Framework e infraestrutura DGX
- Formatos prontos para datasets de proteínas e genômicos
- Logging através de Weights & Biases e checkpoints automáticos
Público-alvo — grupos biomédicos e empresas farmacêuticas que precisam especializar o modelo para um organismo específico, tipo de proteína ou doença. Tarefas típicas: previsão de toxicidade de proteína terapêutica, busca por sítios funcionais no genoma, avaliação de patogenicidade de variante, design de enzimas com propriedades especificadas.
O Que Isso Significa
BioNeMo Recipes reduz a barreira de entrada para equipes sem grande infraestrutura de ML. Um laboratório farmacêutico ou grupo acadêmico com duas GPUs agora pode especializar um modelo fundamental para suas condições. Isso acelera o caminho da hipótese científica para ferramenta computacional — e, em perspectiva, da descoberta para terapia.
*Meta é reconhecida como uma organização extremista e é banida na Federação Russa.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.