قدّمت NVIDIA Nemotron OCR v2: نظام OCR متعدد اللغات مُدرَّب على 12.2 مليون وثيقة اصطناعية
كشفت NVIDIA تفاصيل Nemotron OCR v2، وهو نموذج OCR متعدد اللغات دُرِّب أساسًا على 12.2 مليون وثيقة اصطناعية. الرهان هنا ليس على بنية جديدة، بل على البيانات واسعة

NVIDIA показала, как построила Nemotron OCR v2 — мультиязычную OCR-систему, где главный рывок дали не хитрые архитектурные трюки, а синтетические данные в большом масштабе. Компания собрала датасет из 12,26 млн искусственно сгенерированных документов и на его основе обучила модель, которая читает несколько языков одним движком и выдает до 34,7 страницы в секунду на одной A100.
Упор на данные
Предыдущая версия Nemotron OCR v1 уверенно работала с английским, но на других языках проваливалась. Бенчмарк SynthDoG показал, что для японского, корейского, русского и китайского значения Normalized Edit Distance были слишком высокими: результат местами мало напоминал исходный текст. Команда даже расширила набор символов с 855 до 14 244, чтобы покрыть кириллицу и CJK-письменности, но выигрыш оказался небольшим. Модель формально могла выдавать нужные знаки, но почти не видела их в обучении.
«Узким местом были данные, а не архитектура».
Именно это и стало поворотной точкой проекта. Ручная разметка миллионов документов с боксами на уровне слов, строк и абзацев стоила бы слишком дорого, а веб-скрейпинг PDF дает шумный текстовый слой и массу ошибок. Поэтому NVIDIA пошла по другому пути: генерировать документы программно и заранее знать точные координаты, транскрипции и порядок чтения каждого фрагмента.
Как собрали корпус
Для текстов NVIDIA использовала mOSCAR — крупный многоязычный веб-корпус со 163 языковыми поднаборами. Это позволило брать не словарные списки и не машинный текст, а более реалистичные фразы с естественным распределением слов и символов. В качестве движка рендеринга компания взяла SynthDoG из проекта Donut и серьезно его переработала.
На выходе получаются не просто картинки страниц, а полная иерархическая разметка на уровне слов, строк и абзацев, плюс граф связей, который задает порядок чтения. В пайплайн добавили несколько важных вещей, чтобы синтетика была ближе к реальным документам: многошаблонные макеты: колонки, таблицы, вертикальный текст, оглавления, слайды и страницы в стиле Word разметку не только по боксам, но и по иерархии элементов и связям между строками переход на распознавание строк для японского, корейского и китайского, где границы слов часто неоднозначны большой пул открытых шрифтов — от 165 до 1 258 на язык, включая семейства Google Fonts и Noto * агрессивные аугментации: тени, контуры, шум, размытие, искажения, смену яркости и фонов Итоговый датасет насчитывает 12 258 146 примеров по шести языковым категориям: английский, японский, корейский, русский, упрощенный китайский и традиционный китайский. При этом сама мультиязычная модель работает как единый стек для английского, русского, японского, корейского и китайского, без отдельного шага определения языка.
Логика расширения тоже простая: если для нового языка есть корпус текста и подходящие шрифты, пайплайн можно масштабировать дальше без ручной разметки и без переписывания архитектуры.
Скорость и компромиссы
Nemotron OCR v2 обучали не только на синтетике, но и примерно на 680 тысячах реальных изображений. Архитектура состоит из трех частей: детектор текста на RegNetX-8GF, распознаватель на базе Transformer и relational-модуль, который понимает, какие строки и блоки связаны между собой. Ключевая идея в том, что тяжелый сверточный backbone прогоняет страницу один раз, а затем его признаки переиспользуются всеми остальными компонентами.
За счет этого система не тратит лишние вычисления на каждый этап пайплайна отдельно. На синтетическом бенчмарке прирост выглядит очень сильным. Для русского NED снизился с 0,564 у Nemotron OCR v1 до 0,043 у v2, для японского — с 0,723 до 0,046, для корейского — с 0,923 до 0,047, для упрощенного китайского — с 0,784 до 0,035.
По данным NVIDIA, единая мультиязычная версия на этом наборе обошла даже специализированные языковые варианты PaddleOCR. Но на реальном OmniDocBench картина сложнее: Nemotron OCR v2 показывает 34,7 страницы в секунду против 1,2 у PaddleOCR v5, то есть более чем 28-кратный выигрыш по скорости, однако по точности на части поднаборов уступает лучшим конкурентам. Здесь продукт явно выбирает баланс в пользу скорости обработки, а не максимального качества любой ценой.
Что это значит
Nemotron OCR v2 — хороший сигнал для рынка документного AI: синтетические данные уже дают не демонстрационный эффект, а рабочий способ быстро запускать мультиязычные OCR-модели и масштабировать их на новые письменности. Для компаний это означает более дешевый путь к распознаванию документов, особенно там, где критичны скорость, универсальность и контроль над разметкой, а не абсолютный рекорд на каждом бенчмарке.