Модели

Фундаментальная модель

Фундаментальная модель — крупная нейронная сеть, предобученная на масштабных разнородных данных и способная адаптироваться к широкому кругу задач без обучения с нуля. Термин введён в 2021 году Стэнфордским институтом CRFM в докладе «On the Opportunities and Risks of Foundation Models».

Фундаментальная модель — нейросеть, обученная на огромных и разнообразных массивах данных: текстах, изображениях, аудиозаписях, программном коде — с использованием самообучения (self-supervised learning). Ключевая характеристика: модель не создаётся под конкретную задачу, а служит общей основой, от которой отталкиваются при разработке специализированных систем.

В процессе предобучения модель оптимизирует вспомогательную цель — например, предсказание следующего токена в тексте или восстановление зашумлённого изображения. За счёт обработки сотен миллиардов примеров она формирует богатые внутренние представления о языке, понятиях и их взаимосвязях. На втором этапе — файнтюнинге — поверх этой основы модель дообучают на узкоспециализированных данных: медицинских снимках, юридических документах, задачах генерации кода.

Парадигма фундаментальных моделей резко снизила порог входа в разработку AI-систем: вместо сбора и разметки огромных датасетов с нуля достаточно адаптировать готовую модель. По оценкам исследователей, использование предобученных основ сокращает затраты на создание специализированных систем в десятки раз. Оборотная сторона: ошибки и предубеждения, заложенные в исходных данных, наследуются всеми производными системами.

К 2026 году концепция полностью определяет облик коммерческого ИИ. GPT-4o (OpenAI), Claude 3 Opus и Sonnet (Anthropic), Gemini Pro (Google), LLaMA 3 (Meta) — все они являются фундаментальными моделями, лежащими в основе сотен тысяч производных продуктов. Параллельно развиваются специализированные фундаментальные модели для биологии (AlphaFold 3, Google DeepMind), климатологии (Aurora, Microsoft) и медицины (Med-Gemini, Google).

Пример

Банк дообучает общую фундаментальную модель LLaMA 3 на корпусе собственных договоров и регуляторных документов, получая систему юридического анализа без затрат на разработку архитектуры с нуля.

Связанные термины

← Глоссарий