Глоссарий ИИ

Короткие и точные определения терминов из мира искусственного интеллекта — без академического тумана. Каждый термин начинается с ответа в двух предложениях, дальше — подробный разбор, конкретный пример и связанные понятия. Глоссарий пополняется по мере того, как новые термины входят в новости.

Модели

Decoder-only архитектура
Decoder-only архитектура — вариант трансформера, использующий только стек декодерных слоёв с маскированным (каузальным) вниманием, при котором каждый токен видит лишь предшествующие; основа подавляющего большинства совре
Архитектура энкодер-декодер
Архитектура энкодер-декодер — структура нейронной сети, в которой компонент-энкодер сжимает входную последовательность в латентное представление, а декодер разворачивает его в выходную последовательность другой длины или
Большая языковая модель (LLM)
Большая языковая модель (LLM) — нейронная сеть на основе архитектуры трансформер с миллиардами параметров, обученная предсказывать следующий токен на огромных текстовых корпусах и способная генерировать текст, отвечать н
Визуально-языковая модель (VLM)
Визуально-языковая модель (VLM) — нейронная сеть, совместно обученная на изображениях и тексте, способная связывать визуальное содержимое с языковыми концепциями: отвечать на вопросы об изображениях, описывать их и выпол
Генеративно-состязательная сеть (GAN)
Генеративно-состязательная сеть (GAN) — архитектура глубокого обучения из двух нейросетей: генератор синтезирует данные из случайного шума, а дискриминатор учится отличать их от реальных. В состязательном обучении обе се
Генерация видео по тексту
Генерация видео по тексту (Text-to-Video) — технология, при которой ИИ-модель создаёт видеоролик на основе текстового описания, управляя сценой, движением объектов и длительностью.
Генерация изображений по тексту
Генерация изображений по тексту (Text-to-Image) — технология, при которой нейронная сеть создаёт изображение на основе текстового описания (промпта) на естественном языке.
Глубокое обучение
Глубокое обучение — подраздел машинного обучения, в котором используются многослойные нейронные сети для автоматического извлечения иерархических признаков из сырых данных без ручного проектирования признаков.
Диффузионная модель
Диффузионная модель — класс генеративных нейросетей, обученных обращать процесс постепенного добавления шума к данным. Подавая случайный шум на вход и итеративно «очищая» его, модель генерирует реалистичные изображения,
Малая языковая модель (SLM)
Малая языковая модель (SLM) — языковая модель с числом параметров обычно до 7–13 миллиардов, способная работать на потребительском оборудовании или непосредственно на устройстве пользователя. SLM жертвует частью универса
Машинное обучение
Машинное обучение — область искусственного интеллекта, в которой алгоритмы автоматически строят предсказательные модели из данных без явного программирования каждого правила принятия решений.
Модель мира
Модель мира — нейросетевая система, обученная предсказывать, как состояние среды изменится в ответ на действие агента. Располагая такой моделью, агент может планировать «в воображении» без реального взаимодействия со сре
Модель пространства состояний (SSM)
Модель пространства состояний (SSM) — математический класс архитектур, описывающих эволюцию последовательности через скрытый вектор состояния; в контексте машинного обучения позволяет обрабатывать длинные последовательно
Модель с открытыми весами
Модель с открытыми весами — языковая или мультимодальная нейросеть, параметры (веса) которой публично доступны для скачивания, изучения и локального запуска без обязательного обращения к API разработчика.
Модель эмбеддингов
Модель эмбеддингов — нейронная сеть, преобразующая текст, изображения или другие данные в числовые векторы, в которых семантически похожие объекты расположены близко друг к другу в многомерном пространстве.
Мультимодальная модель
Мультимодальная модель — нейросетевая система, обрабатывающая и генерирующая данные нескольких типов (текст, изображения, аудио, видео) в рамках единой архитектуры, а не раздельными специализированными модулями.
Нейронная сеть
Нейронная сеть — вычислительная модель из слоёв взаимосвязанных узлов (нейронов), которая учится распознавать паттерны в данных, автоматически подстраивая числовые веса связей между узлами в процессе обучения.
Распознавание речи (ASR)
Распознавание речи (ASR, Automatic Speech Recognition) — технология автоматического перевода акустической речи в текст с помощью нейронных сетей, работающих как в реальном времени, так и в пакетном режиме.
Рассуждающая модель
Рассуждающая модель — языковая модель, оптимизированная для многоэтапного логического вывода: перед финальным ответом она генерирует внутреннюю цепочку рассуждений, что повышает точность на математических, научных и прог
Рекуррентная нейросеть (RNN)
Рекуррентная нейросеть (RNN) — архитектура нейронной сети, обрабатывающая последовательности за счёт передачи скрытого состояния от шага к шагу; позволяет учитывать контекст предыдущих элементов при обработке текущего.
Свёрточная нейросеть (CNN)
Свёрточная нейросеть (CNN) — архитектура глубокого обучения, применяющая обучаемые фильтры (ядра свёртки) для извлечения локальных признаков из пространственно структурированных данных, прежде всего изображений; основа б
Синтез речи (TTS)
Синтез речи (TTS, Text-to-Speech) — технология автоматического преобразования написанного текста в звучащую речь с помощью нейронных сетей, воспроизводящих естественные интонацию, ритм и тембр голоса.
Смесь экспертов (MoE)
Смесь экспертов (MoE) — архитектура нейросети, где каждый входной токен обрабатывается только подмножеством специализированных подсетей («экспертов»), а не всеми параметрами модели. Это позволяет увеличивать общее число
Трансформер
Трансформер — архитектура нейронной сети, основанная на механизме самовнимания (self-attention), которая обрабатывает последовательности параллельно и улавливает дальние зависимости; предложена в статье «Attention Is All
Фронтирная модель
Фронтирная модель — AI-система, находящаяся на переднем крае возможностей своего времени и превосходящая или не уступающая всем существующим аналогам по ключевым задачам рассуждения, кодирования и научного анализа. Это о
Фундаментальная модель
Фундаментальная модель — крупная нейронная сеть, предобученная на масштабных разнородных данных и способная адаптироваться к широкому кругу задач без обучения с нуля. Термин введён в 2021 году Стэнфордским институтом CRF

Обучение

DPO (прямая оптимизация предпочтений)
DPO (Direct Preference Optimization) — метод дообучения языковых моделей на основе человеческих предпочтений, не требующий отдельной модели наград и RL-цикла в отличие от классического RLHF. Предложен Rafailov et al. в 2
LoRA (низкоранговая адаптация)
LoRA (Low-Rank Adaptation) — метод эффективного дообучения больших моделей, при котором к замороженным весам добавляются компактные матрицы низкого ранга; число обучаемых параметров сокращается более чем в сто раз по сра
QLoRA
QLoRA — метод дообучения LLM, совмещающий 4-битную квантизацию базовой модели с LoRA-адаптерами в полной точности; позволяет дообучать модели с 65 млрд параметров на одном GPU с 48 ГБ VRAM вместо кластера из нескольких A
RLAIF (обучение с подкреплением на обратной связи от ИИ)
RLAIF — вариант RLHF, в котором роль человека-аннотатора выполняет другая языковая модель: она оценивает качество ответов и формирует сигнал наград, позволяя масштабировать выравнивание без пропорционального роста затрат
RLHF (обучение с подкреплением на человеческой обратной связи)
RLHF — техника выравнивания языковых моделей, при которой оценки живых аннотаторов обучают отдельную модель наград, а затем с её помощью через обучение с подкреплением оптимизируют поведение основной модели.
RLVR (обучение с проверяемыми наградами)
RLVR (Reinforcement Learning with Verifiable Rewards) — метод обучения языковых моделей с подкреплением, где сигнал награды вычисляется автоматически путём верификации правильности ответа по объективному критерию, без уч
Аугментация данных
Аугментация данных — набор техник расширения обучающего датасета путём создания видоизменённых копий существующих примеров при сохранении их меток. Позволяет улучшить обобщающую способность модели без сбора дополнительны
Градиентный спуск
Градиентный спуск — итерационный алгоритм оптимизации, на каждом шаге вычисляющий градиент функции потерь по параметрам модели и обновляющий параметры в направлении, противоположном градиенту. Это фундаментальный механиз
Дистилляция знаний
Дистилляция знаний — метод, при котором компактная модель-«ученик» обучается воспроизводить вероятностные распределения крупной модели-«учителя», а не только правильные ответы; это позволяет уменьшить модель в разы при н
Законы масштабирования
Законы масштабирования — эмпирические степенные зависимости, описывающие, как качество нейросетевых моделей предсказуемо улучшается при увеличении числа параметров, объёма данных и вычислительного бюджета. Впервые систем
Инструктивное дообучение
Инструктивное дообучение — этап обучения языковой модели на наборе пар «инструкция — желаемый ответ», позволяющий ей следовать произвольным командам пользователя вместо простого продолжения текста.
Катастрофическое забывание
Катастрофическое забывание — явление, при котором нейронная сеть, дообученная на новой задаче, резко теряет производительность на ранее освоенных задачах. Возникает потому, что обновление весов для новой задачи перезапис
Непрерывное обучение
Непрерывное обучение — парадигма машинного обучения, при которой модель последовательно накапливает знания из потока новых задач или данных, не утрачивая ранее приобретённые навыки. Служит альтернативой дорогостоящему пе
Обратное распространение ошибки
Обратное распространение ошибки — алгоритм вычисления градиентов функции потерь по весам нейронной сети, используемый для её обучения методом градиентного спуска. Основан на последовательном применении правила дифференци
Обучающие данные
Обучающие данные — размеченный или неразмеченный набор примеров, на котором модель машинного обучения настраивает свои параметры в ходе тренировки. Качество, разнообразие и объём этих данных напрямую определяют возможнос
Обучение без учителя
Обучение без учителя (Unsupervised Learning) — парадигма машинного обучения, при которой модель обнаруживает структуру и закономерности в данных без размеченных примеров и явных правильных ответов.
Обучение с подкреплением
Обучение с подкреплением (Reinforcement Learning, RL) — парадигма машинного обучения, при которой агент учится принимать решения, получая от среды сигналы вознаграждения или штрафа за свои действия, без явных правильных
Обучение с учителем
Обучение с учителем (Supervised Learning) — основная парадигма машинного обучения, при которой модель обучается на размеченных данных: каждому входному примеру соответствует правильный ответ, и модель минимизирует ошибку
Переобучение
Переобучение — явление, при котором модель показывает высокую точность на обучающих данных, но значительно хуже работает на новых, ранее не встречавшихся примерах. Происходит потому, что вместо обобщаемых закономерностей
Предобучение
Предобучение — первый и наиболее ресурсоёмкий этап создания большой языковой модели, на котором сеть обучается предсказывать следующий токен на триллионах слов текста без ручной разметки.
Самообучение (self-supervised)
Самообучение (self-supervised learning) — парадигма обучения, при которой модель сама формирует обучающие сигналы из неразмеченных данных, предсказывая скрытые или пропущенные части входного потока без участия человека-р
Синтетические данные
Синтетические данные — искусственно сгенерированные данные, статистически имитирующие реальные, но не связанные с конкретными людьми или событиями. Используются для обучения моделей при нехватке реальных данных или огран
Трансферное обучение
Трансферное обучение — метод, при котором модель, обученная на одной задаче или наборе данных, переиспользуется для решения другой задачи, сохраняя ранее усвоенные признаки и существенно снижая потребность в размеченных
Файнтюнинг (дообучение)
Файнтюнинг — это дообучение готовой AI-модели на небольшом наборе данных под конкретную задачу. Вместо обучения модели с нуля вы адаптируете существующую под свой домен, стиль или формат ответов.
Федеративное обучение
Федеративное обучение — метод машинного обучения, при котором модель обучается на данных множества устройств или серверов без их централизованной передачи. Градиенты или обновления весов агрегируются на центральном серве
Функция потерь
Функция потерь — математическая функция, измеряющая расхождение между предсказаниями модели и эталонными значениями; её минимизация является непосредственной целью обучения. Выбор функции определяется задачей: кросс-энтр
Чекпоинт модели
Чекпоинт модели — сохранённый снимок весов нейронной сети на определённом этапе обучения. Позволяет возобновить тренировку после сбоя, выбрать лучшую версию модели по валидационным метрикам или развернуть модель в produc
Эпоха обучения
Эпоха (epoch) — один полный проход алгоритма обучения нейронной сети через весь обучающий датасет. После каждой эпохи принято вычислять метрики на валидационной выборке, чтобы отслеживать переобучение и принимать решение

Инференс

Инференс
Инференс — процесс применения обученной модели машинного обучения к новым данным для получения предсказаний или генерации контента. В отличие от обучения, инференс не изменяет веса модели и выполняется в реальном времени
Токен
Токен — минимальная единица текста, которую языковая модель обрабатывает за один шаг: как правило, фрагмент слова, целое слово или знак препинания. Размер контекстного окна модели и стоимость API-запросов измеряются имен

Агенты

ИИ-агент
ИИ-агент — это система, в которой языковая модель не просто отвечает, а планирует и выполняет многошаговые задачи: вызывает инструменты и API, читает результаты и сама решает следующий шаг. В отличие от чат-бота, агент р

Техники и методы

RAG (генерация с дополненной выборкой)
RAG — это техника, при которой языковая модель перед ответом достаёт релевантные документы из внешней базы знаний и опирается на них. Это снижает галлюцинации и позволяет отвечать по свежим данным без переобучения модели