Железо

Видеопамять (VRAM)

Видеопамять (VRAM) — выделенная оперативная память графического процессора, в которой хранятся веса модели, активации и промежуточные данные во время обучения и инференса нейросетей. Её объём непосредственно определяет, модели какого размера можно запустить на GPU.

Видеопамять (Video RAM, VRAM) — высокоскоростная память, интегрированная непосредственно в графический процессор или располагающаяся рядом с ним. В отличие от системной оперативной памяти, VRAM соединена с GPU через широкую шину данных и работает на значительно большей пропускной способности, что критично для параллельных матричных вычислений, лежащих в основе работы нейронных сетей.

Во время обучения языковой модели в VRAM одновременно находятся: веса всех слоёв модели, градиенты для обратного распространения ошибки, состояния оптимизатора (например, моменты Adam) и активации текущего батча. Именно поэтому практический объём VRAM, необходимый для обучения модели с N параметрами в смешанной точности, оказывается в 4–6 раз больше объёма самих весов. Для инференса требования ниже: достаточно разместить только веса и KV-кэш.

Нехватка VRAM — одно из главных узких мест современного AI. GPT-4 с сотнями миллиардов параметров не помещается на один GPU и распределяется по нескольким сотням ускорителей. Потребительские видеокарты (RTX 4090 — 24 ГБ) позволяют запускать модели до 13–70 млрд параметров в квантованном виде, тогда как профессиональные H100 несут 80 ГБ HBM2e. В 2025–2026 годах NVIDIA H200 и Blackwell B200 подняли планку до 141 ГБ и 192 ГБ соответственно, что позволяет размещать более крупные модели без тензорного параллелизма.

Пример

Для запуска Llama-3 70B в полной точности fp16 необходимо около 140 ГБ VRAM, что требует объединения минимум двух H100 80 ГБ; квантование до 4-битного INT4 снижает потребность примерно до 35 ГБ — и модель умещается на одном GPU.

Связанные термины

← Глоссарий