Hugging Face Blog→ оригинал

IBM раскрыла, как строила Granite 4.1: 15 трлн токенов, 512K контекста и ставка на качество

IBM показала внутреннюю кухню Granite 4.1 — семейства open-source LLM на 3B, 8B и 30B параметров. Модели обучили на 15 трлн токенов в пять этапов, растянули кон

IBM раскрыла, как строила Granite 4.1: 15 трлн токенов, 512K контекста и ставка на качество
Источник: Hugging Face Blog. Коллаж: Hamidun News.

29 апреля 2026 года IBM в блоге Hugging Face опубликовала подробный разбор того, как создавалось семейство Granite 4.1. Компания раскрыла не только архитектуру моделей, но и весь пайплайн: от состава датасетов и длинного контекста до фильтрации SFT-данных и многоступенчатого reinforcement learning.

Как устроена серия

Granite 4.1 — это семейство decoder-only dense-моделей на 3B, 8B и 30B параметров. Во всех трёх вариантах IBM использует одну и ту же базовую логику: Grouped Query Attention, Rotary Position Embeddings, SwiGLU, RMSNorm и общие входные и выходные эмбеддинги.

Различается в основном масштаб — число слоёв, размер скрытых состояний и параметры MLP. Такой подход позволяет сравнивать модели внутри одной линейки без скидок на разную архитектурную философию. Главный тезис IBM — качество маленькой модели определяется не только вычислительным бюджетом, но и дисциплиной в работе с данными.

Поэтому Granite 4.1 строили как плотные, а не MoE-модели, а ставку сделали на аккуратную смену смесей данных по ходу обучения. Все модели выпущены по лицензии Apache 2.

0, а instruct-версии поддерживают 12 языков, включая английский, немецкий, испанский, японский, арабский, китайский и португальский.

Пять этапов обучения Предобучение Granite 4.1 шло с нуля и охватило примерно 15 трлн токенов.

IBM разбила процесс на пять фаз: сначала модель набирает широкую языковую базу на веб-данных, затем усиливает математику и код, после чего постепенно переходит к более качественным и специализированным выборкам. В поздних фазах в смесь добавляют длинные reasoning-траектории, synthetic-данные и instruction-датасеты, а в финале отдельно учат работать с очень длинным контекстом.

  • Фаза 1: 10 трлн токенов общего предобучения, где около 59% смеси приходится на CommonCrawl.
  • Фаза 2: ещё 2 трлн токенов с резким ростом доли математики и кода — до 35% и 30% соответственно.
  • Фаза 3: 2 трлн токенов high-quality annealing, где появляются chain-of-thought, synthetic и instruction-данные.
  • Фаза 4: ещё 0,5 трлн токенов с упором на самую качественную смесь и снижением learning rate к нулю.
  • Фаза 5: long-context extension, который расширяет окно с 4K до 32K, 128K и затем до 512K. Чтобы длинный контекст не ломал качество на коротких запросах, IBM после каждого этапа LCE делает merge модели. Для финального расширения до 512K в версиях 8B и 30B использовали смесь из книг и репозиториев кода. На базовых моделях это дало заметные результаты на RULER: у 8B-варианта метрика остаётся высокой даже на 128K, а 30B идёт ещё выше. Это важный сигнал для команд, которым нужны не только чат-ответы, но и работа с длинными документами, логами и большими фрагментами кода.

Дообучение и качество

После предобучения IBM пропустила SFT-датасет через жёсткий контур контроля качества. В финальную выборку вошло около 4,1 млн примеров, но перед этим каждый ответ проверяли через схему LLM-as-Judge и набор детерминированных правил. Модель-оценщик смотрела на следование инструкции, корректность, полноту, краткость, естественность и calibration, а жёсткие причины для отклонения включали галлюцинации, ложные предпосылки и ошибки в вычислениях.

Дополнительно применялись нормализация, schema validation, фильтры длины и глобальная дедупликация. На этапе RL IBM не ограничилась одним проходом. Компания использовала on-policy GRPO с DAPO loss и собрала четыре последовательные стадии: multi-domain RL, RLHF для общей полезности и диалога, identity и knowledge-calibration RL, а затем отдельный math RL, который возвращает и улучшает математические навыки после RLHF.

По данным IBM, один только RLHF добавил в среднем около 18,9 пункта на AlpacaEval относительно SFT-чекпоинтов. Самый громкий результат — instruct-модель Granite 4.1 8B стабильно сравнивается с Granite 4.

0-H-Small 32B-A9B и по ряду тестов обходит её. Параллельно IBM выпустила FP8-варианты, которые примерно вдвое уменьшают требования к памяти и месту на диске.

Что это значит IBM показала, что конкурировать в open-source LLM можно

не только размером модели, но и качеством training recipe. Для компаний это делает Granite 4.1 практичным кандидатом: предсказуемая задержка без длинных reasoning-трейсов, длинный контекст, открытая лицензия и более низкая стоимость запуска по сравнению с более тяжёлыми системами.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…