Глоссарий ИИ

Короткие и точные определения терминов из мира искусственного интеллекта — без академического тумана. Каждый термин начинается с ответа в двух предложениях, дальше — подробный разбор, конкретный пример и связанные понятия. Глоссарий пополняется по мере того, как новые термины входят в новости.

Модели

Decoder-only архитектура

Decoder-only архитектура — вариант трансформера, использующий только стек декодерных слоёв с маскированным (каузальным) вниманием, при котором каждый токен видит лишь предшествующие; основа подавляющего большинства совре

Архитектура энкодер-декодер

Архитектура энкодер-декодер — структура нейронной сети, в которой компонент-энкодер сжимает входную последовательность в латентное представление, а декодер разворачивает его в выходную последовательность другой длины или

Большая языковая модель (LLM)

Большая языковая модель (LLM) — нейронная сеть на основе архитектуры трансформер с миллиардами параметров, обученная предсказывать следующий токен на огромных текстовых корпусах и способная генерировать текст, отвечать н

Визуально-языковая модель (VLM)

Визуально-языковая модель (VLM) — нейронная сеть, совместно обученная на изображениях и тексте, способная связывать визуальное содержимое с языковыми концепциями: отвечать на вопросы об изображениях, описывать их и выпол

Генеративно-состязательная сеть (GAN)

Генеративно-состязательная сеть (GAN) — архитектура глубокого обучения из двух нейросетей: генератор синтезирует данные из случайного шума, а дискриминатор учится отличать их от реальных. В состязательном обучении обе се

Генерация видео по тексту

Генерация видео по тексту (Text-to-Video) — технология, при которой ИИ-модель создаёт видеоролик на основе текстового описания, управляя сценой, движением объектов и длительностью.

Генерация изображений по тексту

Генерация изображений по тексту (Text-to-Image) — технология, при которой нейронная сеть создаёт изображение на основе текстового описания (промпта) на естественном языке.

Глубокое обучение

Глубокое обучение — подраздел машинного обучения, в котором используются многослойные нейронные сети для автоматического извлечения иерархических признаков из сырых данных без ручного проектирования признаков.

Диффузионная модель

Диффузионная модель — класс генеративных нейросетей, обученных обращать процесс постепенного добавления шума к данным. Подавая случайный шум на вход и итеративно «очищая» его, модель генерирует реалистичные изображения,

Малая языковая модель (SLM)

Малая языковая модель (SLM) — языковая модель с числом параметров обычно до 7–13 миллиардов, способная работать на потребительском оборудовании или непосредственно на устройстве пользователя. SLM жертвует частью универса

Машинное обучение

Машинное обучение — область искусственного интеллекта, в которой алгоритмы автоматически строят предсказательные модели из данных без явного программирования каждого правила принятия решений.

Модель мира

Модель мира — нейросетевая система, обученная предсказывать, как состояние среды изменится в ответ на действие агента. Располагая такой моделью, агент может планировать «в воображении» без реального взаимодействия со сре

Модель пространства состояний (SSM)

Модель пространства состояний (SSM) — математический класс архитектур, описывающих эволюцию последовательности через скрытый вектор состояния; в контексте машинного обучения позволяет обрабатывать длинные последовательно

Модель с открытыми весами

Модель с открытыми весами — языковая или мультимодальная нейросеть, параметры (веса) которой публично доступны для скачивания, изучения и локального запуска без обязательного обращения к API разработчика.

Модель эмбеддингов

Модель эмбеддингов — нейронная сеть, преобразующая текст, изображения или другие данные в числовые векторы, в которых семантически похожие объекты расположены близко друг к другу в многомерном пространстве.

Мультимодальная модель

Мультимодальная модель — нейросетевая система, обрабатывающая и генерирующая данные нескольких типов (текст, изображения, аудио, видео) в рамках единой архитектуры, а не раздельными специализированными модулями.

Нейронная сеть

Нейронная сеть — вычислительная модель из слоёв взаимосвязанных узлов (нейронов), которая учится распознавать паттерны в данных, автоматически подстраивая числовые веса связей между узлами в процессе обучения.

Распознавание речи (ASR)

Распознавание речи (ASR, Automatic Speech Recognition) — технология автоматического перевода акустической речи в текст с помощью нейронных сетей, работающих как в реальном времени, так и в пакетном режиме.

Рассуждающая модель

Рассуждающая модель — языковая модель, оптимизированная для многоэтапного логического вывода: перед финальным ответом она генерирует внутреннюю цепочку рассуждений, что повышает точность на математических, научных и прог

Рекуррентная нейросеть (RNN)

Рекуррентная нейросеть (RNN) — архитектура нейронной сети, обрабатывающая последовательности за счёт передачи скрытого состояния от шага к шагу; позволяет учитывать контекст предыдущих элементов при обработке текущего.

Свёрточная нейросеть (CNN)

Свёрточная нейросеть (CNN) — архитектура глубокого обучения, применяющая обучаемые фильтры (ядра свёртки) для извлечения локальных признаков из пространственно структурированных данных, прежде всего изображений; основа б

Синтез речи (TTS)

Синтез речи (TTS, Text-to-Speech) — технология автоматического преобразования написанного текста в звучащую речь с помощью нейронных сетей, воспроизводящих естественные интонацию, ритм и тембр голоса.

Смесь экспертов (MoE)

Смесь экспертов (MoE) — архитектура нейросети, где каждый входной токен обрабатывается только подмножеством специализированных подсетей («экспертов»), а не всеми параметрами модели. Это позволяет увеличивать общее число

Трансформер

Трансформер — архитектура нейронной сети, основанная на механизме самовнимания (self-attention), которая обрабатывает последовательности параллельно и улавливает дальние зависимости; предложена в статье «Attention Is All

Фронтирная модель

Фронтирная модель — AI-система, находящаяся на переднем крае возможностей своего времени и превосходящая или не уступающая всем существующим аналогам по ключевым задачам рассуждения, кодирования и научного анализа. Это о

Фундаментальная модель

Фундаментальная модель — крупная нейронная сеть, предобученная на масштабных разнородных данных и способная адаптироваться к широкому кругу задач без обучения с нуля. Термин введён в 2021 году Стэнфордским институтом CRF

Обучение

DPO (прямая оптимизация предпочтений)

DPO (Direct Preference Optimization) — метод дообучения языковых моделей на основе человеческих предпочтений, не требующий отдельной модели наград и RL-цикла в отличие от классического RLHF. Предложен Rafailov et al. в 2

LoRA (низкоранговая адаптация)

LoRA (Low-Rank Adaptation) — метод эффективного дообучения больших моделей, при котором к замороженным весам добавляются компактные матрицы низкого ранга; число обучаемых параметров сокращается более чем в сто раз по сра

QLoRA — метод дообучения LLM, совмещающий 4-битную квантизацию базовой модели с LoRA-адаптерами в полной точности; позволяет дообучать модели с 65 млрд параметров на одном GPU с 48 ГБ VRAM вместо кластера из нескольких A

RLAIF (обучение с подкреплением на обратной связи от ИИ)

RLAIF — вариант RLHF, в котором роль человека-аннотатора выполняет другая языковая модель: она оценивает качество ответов и формирует сигнал наград, позволяя масштабировать выравнивание без пропорционального роста затрат

RLHF (обучение с подкреплением на человеческой обратной связи)

RLHF — техника выравнивания языковых моделей, при которой оценки живых аннотаторов обучают отдельную модель наград, а затем с её помощью через обучение с подкреплением оптимизируют поведение основной модели.

RLVR (обучение с проверяемыми наградами)

RLVR (Reinforcement Learning with Verifiable Rewards) — метод обучения языковых моделей с подкреплением, где сигнал награды вычисляется автоматически путём верификации правильности ответа по объективному критерию, без уч

Аугментация данных

Аугментация данных — набор техник расширения обучающего датасета путём создания видоизменённых копий существующих примеров при сохранении их меток. Позволяет улучшить обобщающую способность модели без сбора дополнительны

Градиентный спуск

Градиентный спуск — итерационный алгоритм оптимизации, на каждом шаге вычисляющий градиент функции потерь по параметрам модели и обновляющий параметры в направлении, противоположном градиенту. Это фундаментальный механиз

Дистилляция знаний

Дистилляция знаний — метод, при котором компактная модель-«ученик» обучается воспроизводить вероятностные распределения крупной модели-«учителя», а не только правильные ответы; это позволяет уменьшить модель в разы при н

Законы масштабирования

Законы масштабирования — эмпирические степенные зависимости, описывающие, как качество нейросетевых моделей предсказуемо улучшается при увеличении числа параметров, объёма данных и вычислительного бюджета. Впервые систем

Инструктивное дообучение

Инструктивное дообучение — этап обучения языковой модели на наборе пар «инструкция — желаемый ответ», позволяющий ей следовать произвольным командам пользователя вместо простого продолжения текста.

Катастрофическое забывание

Катастрофическое забывание — явление, при котором нейронная сеть, дообученная на новой задаче, резко теряет производительность на ранее освоенных задачах. Возникает потому, что обновление весов для новой задачи перезапис

Непрерывное обучение

Непрерывное обучение — парадигма машинного обучения, при которой модель последовательно накапливает знания из потока новых задач или данных, не утрачивая ранее приобретённые навыки. Служит альтернативой дорогостоящему пе

Обратное распространение ошибки

Обратное распространение ошибки — алгоритм вычисления градиентов функции потерь по весам нейронной сети, используемый для её обучения методом градиентного спуска. Основан на последовательном применении правила дифференци

Обучающие данные

Обучающие данные — размеченный или неразмеченный набор примеров, на котором модель машинного обучения настраивает свои параметры в ходе тренировки. Качество, разнообразие и объём этих данных напрямую определяют возможнос

Обучение без учителя

Обучение без учителя (Unsupervised Learning) — парадигма машинного обучения, при которой модель обнаруживает структуру и закономерности в данных без размеченных примеров и явных правильных ответов.

Обучение с подкреплением

Обучение с подкреплением (Reinforcement Learning, RL) — парадигма машинного обучения, при которой агент учится принимать решения, получая от среды сигналы вознаграждения или штрафа за свои действия, без явных правильных

Обучение с учителем

Обучение с учителем (Supervised Learning) — основная парадигма машинного обучения, при которой модель обучается на размеченных данных: каждому входному примеру соответствует правильный ответ, и модель минимизирует ошибку

Переобучение

Переобучение — явление, при котором модель показывает высокую точность на обучающих данных, но значительно хуже работает на новых, ранее не встречавшихся примерах. Происходит потому, что вместо обобщаемых закономерностей

Предобучение

Предобучение — первый и наиболее ресурсоёмкий этап создания большой языковой модели, на котором сеть обучается предсказывать следующий токен на триллионах слов текста без ручной разметки.

Самообучение (self-supervised)

Самообучение (self-supervised learning) — парадигма обучения, при которой модель сама формирует обучающие сигналы из неразмеченных данных, предсказывая скрытые или пропущенные части входного потока без участия человека-р

Синтетические данные

Синтетические данные — искусственно сгенерированные данные, статистически имитирующие реальные, но не связанные с конкретными людьми или событиями. Используются для обучения моделей при нехватке реальных данных или огран

Трансферное обучение

Трансферное обучение — метод, при котором модель, обученная на одной задаче или наборе данных, переиспользуется для решения другой задачи, сохраняя ранее усвоенные признаки и существенно снижая потребность в размеченных

Файнтюнинг (дообучение)

Файнтюнинг — это дообучение готовой AI-модели на небольшом наборе данных под конкретную задачу. Вместо обучения модели с нуля вы адаптируете существующую под свой домен, стиль или формат ответов.

Федеративное обучение

Федеративное обучение — метод машинного обучения, при котором модель обучается на данных множества устройств или серверов без их централизованной передачи. Градиенты или обновления весов агрегируются на центральном серве

Функция потерь

Функция потерь — математическая функция, измеряющая расхождение между предсказаниями модели и эталонными значениями; её минимизация является непосредственной целью обучения. Выбор функции определяется задачей: кросс-энтр

Чекпоинт модели

Чекпоинт модели — сохранённый снимок весов нейронной сети на определённом этапе обучения. Позволяет возобновить тренировку после сбоя, выбрать лучшую версию модели по валидационным метрикам или развернуть модель в produc

Эпоха обучения

Эпоха (epoch) — один полный проход алгоритма обучения нейронной сети через весь обучающий датасет. После каждой эпохи принято вычислять метрики на валидационной выборке, чтобы отслеживать переобучение и принимать решение

Инференс

Инференс

Инференс — процесс применения обученной модели машинного обучения к новым данным для получения предсказаний или генерации контента. В отличие от обучения, инференс не изменяет веса модели и выполняется в реальном времени

Токен — минимальная единица текста, которую языковая модель обрабатывает за один шаг: как правило, фрагмент слова, целое слово или знак препинания. Размер контекстного окна модели и стоимость API-запросов измеряются имен

Агенты

ИИ-агент

ИИ-агент — это система, в которой языковая модель не просто отвечает, а планирует и выполняет многошаговые задачи: вызывает инструменты и API, читает результаты и сама решает следующий шаг. В отличие от чат-бота, агент р

Техники и методы

RAG (генерация с дополненной выборкой)

RAG — это техника, при которой языковая модель перед ответом достаёт релевантные документы из внешней базы знаний и опирается на них. Это снижает галлюцинации и позволяет отвечать по свежим данным без переобучения модели