NVIDIA Developer Blog→ المصدر

NVIDIA BioNeMo позволяет дообучать биологические AI-модели методом LoRA за часы

NVIDIA выпустила BioNeMo Recipes — готовые пайплайны для дообучения фундаментальных биологических AI-моделей методом LoRA. Два флагмана: ESM2 (белки) и Evo 2…

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
NVIDIA BioNeMo позволяет дообучать биологические AI-модели методом LoRA за часы
المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت NVIDIA BioNeMo مجموعة من "الوصفات" الجاهزة لضبط المحاكاة الدقيقة للنماذج البيولوجية الأساسية باستخدام LoRA (Low-Rank Adaptation). تسمح مجموعة الأدوات لفرق البحث بتكييف نماذج اللغة الكبيرة للبروتينات والحمض النووي للمهام العلمية المحددة بدون موارد الحواسيب الفائقة.

النماذج الأساسية في علم الأحياء

يشهد علم الأحياء الحسابي تحولاً مشابهاً لما مرّ به معالجة اللغات الطبيعية مع BERT. تلتقط النماذج المدربة مسبقاً على مليارات من تسلسلات بيولوجية أنماطاً إحصائية يصعب وصفها بالقواعد الكلاسيكية، لكن محولات اللغة تلتقطها بشكل جيد. يعمل BioNeMo Recipes مع نموذجين رئيسيين.

ESM2 — نموذج لغة للبروتينات من Meta، مدرب على UniRef50. حلل مئات الملايين من تسلسلات الأحماض الأمينية وتعلم التنبؤ بالخصائص الهيكلية والوظيفية للبروتينات؛ تتراوح الإصدارات من 8 ملايين إلى 15 مليار معامل.

Evo 2 — نموذج لغة للحمض النووي من Arc Institute، مدرب على 9.3 تريليون نيوكليوتيد من أنساق 128000 نوع. يتنبأ بالعناصر التنظيمية الوظيفية ويحاكي عواقب الطفرات الجينومية.

تنتقل كلا فئتي النماذج بشكل جيد للمهام المتخصصة: شرح وظائف البروتين، التنبؤ بالموقع الأحادي الخلوي، تقييم إمراضية المتغيرات. لكن الضبط الدقيق الكامل لمثل هذه النماذج مكلف وطويل الأمد.

لماذا يغير LoRA الحساب

بدلاً من تحديث جميع الأوزان، يضيف LoRA مصفوفات مضغوطة منخفضة الرتبة إلى طبقات المحول — تبقى المعاملات المتبقية مجمدة. تمر فقط هذه الإدراجات الصغيرة عبر الانتشار العكسي.

الأرقام الرئيسية للنماذج البيولوجية:

  • يتم تقليل عدد المعاملات القابلة للتدريب بنسبة 90–99%
  • يناسب ESM2 بـ 3 مليارات معامل مع LoRA على 1–2 وحدات معالجة رسومية بدلاً من عشرات A100s
  • تنخفض تكلفة التجربة من آلاف إلى دولارات قليلة لكل ساعة معالجة رسومية
  • تنخفض مدة التدريب من أسابيع إلى عدة ساعات
  • الجودة في المهام المتخصصة الضيقة مماثلة للضبط الدقيق الكامل

بالنسبة لعلم الأحياء، هذا مهم بشكل أساسي: مجموعات بيانات المختبر غالباً صغيرة — مئات أو آلاف من الأمثلة. الضبط الدقيق للنموذج الكبير الكامل على هذا الحجم يؤدي إلى فقدان التعميم، بينما يؤدي LoRA بحد أدنى من المعاملات الجديدة إلى أداء أفضل بشكل ملحوظ.

ما الذي يدخل BioNeMo Recipes

BioNeMo Recipes عبارة عن مجموعة من أنابيب التكوين الجاهزة مع التوثيق والأمثلة والاختبارات. يختار الباحث نموذجاً ومهمة ومجموعة بيانات، وبعد ذلك تقوم الوصفة تلقائياً بتعيين المعاملات المفرطة وتكوين تحميل الأوزان والتسجيل.

تشمل مجموعة الأدوات:

  • دعم LoRA والضبط الدقيق الكامل لـ ESM2 و Evo 2
  • التكامل مع NVIDIA NeMo Framework وبنية DGX
  • تنسيقات جاهزة لمجموعات بيانات البروتينات والجينومية
  • التسجيل عبر Weights & Biases والنقاط الفحص التلقائية

الجمهور المستهدف — مجموعات طبية حيوية وشركات صيدلانية تحتاج إلى تخصيص النموذج لكائن حي معين أو نوع بروتين أو مرض. المهام النموذجية: التنبؤ بسمية البروتينات العلاجية، البحث عن المواقع الوظيفية في الجينوم، تقييم إمراضية المتغيرات، تصميم الإنزيمات بخصائص محددة.

ما الذي يعنيه هذا

يخفض BioNeMo Recipes حاجز الدخول للفرق بدون بنية تحتية كبيرة لـ ML. يمكن لمختبر صيدلاني أو مجموعة أكاديمية تضم وحدتي معالجة رسومية الآن تخصيص نموذج أساسي لظروفهم. هذا يسرع المسار من الفرضية العلمية إلى الأداة الحسابية — وفي المنظور، من الاكتشاف إلى العلاج.

*يُعترف بـ Meta كمنظمة متطرفة وممنوعة في الاتحاد الروسي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

ما رأيك؟
جارٍ تحميل التعليقات…