Модели

Малая языковая модель (SLM)

Малая языковая модель (SLM) — языковая модель с числом параметров обычно до 7–13 миллиардов, способная работать на потребительском оборудовании или непосредственно на устройстве пользователя. SLM жертвует частью универсальных способностей ради скорости, низкого энергопотребления и конфиденциальности данных.

Малая языковая модель (Small Language Model, SLM) — подкласс языковых моделей, ориентированных на эффективное развёртывание в условиях ограниченных вычислительных ресурсов. Чёткой границы по числу параметров не существует: как правило, к SLM относят модели с менее чем 13 миллиардами параметров, хотя часть исследователей использует порог 7B. Главный критерий — возможность запуска на потребительском GPU, процессоре ноутбука или мобильном чипе без облачной инфраструктуры.

SLM достигают конкурентоспособного качества через комбинацию нескольких подходов: тщательный отбор обучающих данных (небольшой объём высококачественных материалов эффективнее огромных «сырых» корпусов), дистилляция знаний от крупных моделей-учителей, квантизация весов до 4–8 бит, а также архитектурные оптимизации — grouped query attention и sliding window attention. Модель Phi-3 Mini от Microsoft с 3,8 миллиарда параметров показала, что на тщательно отфильтрованных данных можно достигать результатов, сопоставимых с моделями значительно большего размера по ряду задач рассуждения и кодирования.

SLM решают три практические проблемы крупных моделей: стоимость вывода, задержку и конфиденциальность. Запуск систем уровня GPT-4 требует дорогостоящей облачной инфраструктуры; SLM можно интегрировать непосредственно в смартфон, ноутбук или промышленный контроллер, работать в офлайн-режиме и исключить передачу корпоративных данных на внешние серверы.

К 2026 году рынок SLM стал самостоятельным направлением. Microsoft выпустила семейство Phi-3 и Phi-4 (3,8B–14B параметров), Meta — LLaMA 3.2 с вариантами 1B и 3B для мобильных устройств, Google — Gemma 2 (2B, 9B). Apple интегрировала собственные SLM в систему Apple Intelligence, работающую локально на устройствах с чипами A17 и серии M. Qualcomm и MediaTek добавляют специализированные NPU-блоки для аппаратного ускорения SLM прямо в мобильные процессоры.

Пример

Медицинское приложение использует SLM с 7 миллиардами параметров, работающую локально на планшете врача в районной больнице: модель помогает формулировать клинические записи без передачи данных пациентов в облако.

Связанные термины

Большая языковая модель (LLM)Дистилляция знаний Quantization

← Глоссарий