NVIDIA Developer Blog→ original

NVIDIA BioNeMo позволяет дообучать биологические AI-модели методом LoRA за часы

NVIDIA выпустила BioNeMo Recipes — готовые пайплайны для дообучения фундаментальных биологических AI-моделей методом LoRA. Два флагмана: ESM2 (белки) и Evo 2…

Traité par IA depuis NVIDIA Developer Blog ; édité par Hamidun News
NVIDIA BioNeMo позволяет дообучать биологические AI-модели методом LoRA за часы
Source : NVIDIA Developer Blog. Collage: Hamidun News.
◐ Écouter l'article

NVIDIA BioNeMo a lancé un ensemble de "recettes" prêtes pour le fine-tuning de modèles biologiques fondamentaux en utilisant LoRA (Low-Rank Adaptation). Le kit permet aux équipes de recherche d'adapter de grands modèles de langage pour les protéines et l'ADN à des tâches scientifiques spécifiques sans ressources de superinformatique.

Modèles Fondamentaux en Biologie

La biologie computationnelle subit une transformation similaire à celle que le NLP a connue avec BERT. Les modèles pré-entraînés sur des milliards de séquences biologiques capturent des motifs statistiques qui sont mal décrits par les règles classiques, mais bien capturés par les transformers. BioNeMo Recipes fonctionne avec deux modèles phares.

ESM2 — un modèle de langage pour les protéines de Meta, entraîné sur UniRef50. Il a analysé des centaines de millions de séquences d'acides aminés et a appris à prédire les propriétés structurelles et fonctionnelles des protéines ; les versions vont de 8 millions à 15 milliards de paramètres.

Evo 2 — un modèle de langage pour l'ADN de l'Arc Institute, entraîné sur 9,3 trillions de nucléotides provenant de génomes de 128 000 espèces. Il prédit les éléments régulateurs fonctionnels et modélise les conséquences des mutations génomiques.

Les deux classes de modèles se transfèrent bien aux tâches spécialisées : annotation de fonction protéique, prédiction de la localisation subcellulaire, évaluation de la pathogénicité des variantes. Mais le fine-tuning complet de tels modèles est coûteux et long.

Pourquoi LoRA Change le Calcul

LoRA, au lieu de mettre à jour tous les poids, ajoute des matrices compactes de bas rang aux couches de transformer — les paramètres restants sont gelés. Seules ces petites insertions passent par la rétropropagation.

Chiffres clés pour les modèles biologiques :

  • Le nombre de paramètres entraînables est réduit de 90–99%
  • ESM2 avec 3 milliards de paramètres avec LoRA tient sur 1–2 GPUs au lieu de dizaines d'A100s
  • Le coût de l'expérience chute de milliers à quelques dollars par heure de GPU
  • La durée d'entraînement est réduite de semaines à quelques heures
  • La qualité sur les tâches spécialisées étroites est comparable au fine-tuning complet

Pour la biologie, c'est fondamentalement important : les datasets de laboratoire sont souvent petits — des centaines ou des milliers d'exemples. Le fine-tuning du modèle large complet sur un tel volume entraîne une perte de généralisation, tandis que LoRA avec un nombre minimal de nouveaux paramètres fonctionne notablement mieux.

Qu'y a-t-il dans BioNeMo Recipes

BioNeMo Recipes est un ensemble de pipelines de configuration prêts avec documentation, exemples et tests. Un chercheur sélectionne un modèle, une tâche et un dataset, après quoi la recette configure automatiquement les hyperparamètres, le chargement des poids et le logging.

Le kit comprend :

  • Support pour LoRA et fine-tuning complet pour ESM2 et Evo 2
  • Intégration avec NVIDIA NeMo Framework et l'infrastructure DGX
  • Formats prêts pour les datasets de protéines et génomiques
  • Logging via Weights & Biases et checkpoints automatiques

Public cible — groupes biomédicaux et sociétés pharmaceutiques qui ont besoin de spécialiser le modèle pour un organisme spécifique, un type de protéine ou une maladie. Tâches typiques : prédiction de la toxicité des protéines thérapeutiques, recherche de sites fonctionnels dans le génome, évaluation de la pathogénicité des variantes, conception d'enzymes avec des propriétés spécifiées.

Ce Que Cela Signifie

BioNeMo Recipes abaisse la barrière à l'entrée pour les équipes sans grande infrastructure ML. Un laboratoire pharmaceutique ou un groupe académique avec deux GPUs peut maintenant spécialiser un modèle fondamental pour leurs conditions. Cela accélère le chemin de l'hypothèse scientifique à l'outil computationnel — et, en perspective, de la découverte à la thérapie.

*Meta est reconnue comme une organisation extrémiste et est interdite en Fédération de Russie.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?

Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).

Qu'en pensez-vous ?
Chargement des commentaires…