Чекпоинт модели
Чекпоинт модели — сохранённый снимок весов нейронной сети на определённом этапе обучения. Позволяет возобновить тренировку после сбоя, выбрать лучшую версию модели по валидационным метрикам или развернуть модель в production без повторного обучения с нуля.
Чекпоинт (model checkpoint) — файл или набор файлов, содержащих полное состояние модели в фиксированный момент: веса (параметры), состояние оптимизатора, текущий шаг обучения и, опционально, значения метрик. Для трансформеров размер чекпоинта прямо пропорционален числу параметров: модель с 7 млрд параметров в формате float16 занимает около 14 ГБ, с 70 млрд параметров — около 140 ГБ.
Чекпоинты сохраняются по расписанию (каждые N шагов или эпох) либо при улучшении целевой метрики на валидационной выборке. Популярные форматы: PyTorch `.pt`/`.pth`, SafeTensors (рекомендован с 2023 года как более безопасная замена pickle, устойчивая к атакам через десериализацию), ONNX для кросс-платформенного развёртывания. Современные фреймворки — HuggingFace Transformers, PyTorch Lightning, DeepSpeed — автоматизируют сохранение чекпоинтов через встроенные callback-функции и поддерживают распределённое сохранение для сверхбольших моделей.
Чекпоинты решают три задачи. Во-первых, отказоустойчивость: при многонедельных прогонах на GPU-кластерах сбой одного узла не обнуляет прогресс. Во-вторых, выбор лучшей версии модели (model selection): из нескольких сохранённых состояний выбирают то, что показало наилучшие метрики на валидации — особенно важно при нестабильном обучении с колебаниями loss. В-третьих, предобученные чекпоинты служат отправной точкой для fine-tuning на новых задачах, многократно сокращая вычислительные затраты.
К 2026 году платформа Hugging Face Hub хранит сотни тысяч публичных чекпоинтов — от компактных дистиллированных моделей до полных весов Llama 3, Mistral, Qwen и других открытых LLM. Облачные провайдеры — AWS SageMaker, Google Vertex AI, Azure ML — предлагают управляемые хранилища чекпоинтов с версионированием, автоматическим резервным копированием и интеграцией в MLOps-пайплайны.