Модели

Большая языковая модель (LLM)

Большая языковая модель (LLM) — нейронная сеть на основе архитектуры трансформер с миллиардами параметров, обученная предсказывать следующий токен на огромных текстовых корпусах и способная генерировать текст, отвечать на вопросы и решать сложные языковые задачи.

Большая языковая модель — класс генеративных нейронных сетей, обученных на текстовых данных в таком масштабе, при котором у модели формируются обобщённые языковые и фактические знания. Типичный порог «большой» — от нескольких миллиардов параметров, хотя граница условна: GPT-2 (2019, 1,5 млрд параметров) уже демонстрировал убедительную генерацию текста, тогда как GPT-4 (2023), по независимым оценкам, содержит свыше 1 трлн параметров в разреженной конфигурации Mixture of Experts. Обучение ведётся самообучением: модель учится предсказывать следующий токен в тексте — задача, не требующая ручной разметки данных.

После предобучения на огромных корпусах (Common Crawl, Wikipedia, книги, программный код) LLM дообучаются с помощью RLHF (Reinforcement Learning from Human Feedback) или RLAIF. Это делает ответы безопасными, следующими инструкциям и содержательными. Ключевой параметр — размер контекстного окна: GPT-3 (2020) обрабатывал 2 048 токенов, модели 2025–2026 годов работают с 128 000 (GPT-4o) и вплоть до 2 000 000 токенов (Gemini 1.5 Pro).

LLM изменили рынок программного обеспечения: они встроены в среды разработки (GitHub Copilot), поисковые системы (Perplexity AI, Google AI Overviews), юридические платформы и медицинские системы поддержки принятия решений. Ключевые игроки на 2025–2026 годы — OpenAI (GPT-4o, o3), Anthropic (Claude 3.7 Sonnet), Google DeepMind (Gemini 2.0), Meta (Llama 3.1), Mistral AI.

К 2026 году тренд — специализация: вертикальные LLM для медицины, права, программирования (Codestral от Mistral) и финансов конкурируют с универсальными флагманами. Малые языковые модели (SLM) — Phi-3 от Microsoft, Gemma от Google, Llama 3.2 от Meta (1–8 млрд параметров) — позволяют запускать LLM-сценарии локально на смартфонах и ноутбуках. Ключевые нерешённые проблемы — галлюцинации (уверенное воспроизведение ложных фактов) и высокое энергопотребление при обучении.

Пример

Компания внедрила LLM для автоматического анализа юридических договоров: модель извлекает ключевые условия, сроки и риски, сокращая время проверки одного документа с нескольких часов до нескольких минут.

Связанные термины

Трансформер Токен Предобучение Context Window Фундаментальная модель

← Глоссарий