NVIDIA a présenté Nemotron OCR v2 : un OCR multilingue entraîné sur 12,2 millions de documents synthétiques
NVIDIA a dévoilé les détails de Nemotron OCR v2, un modèle d'OCR multilingue entraîné principalement sur 12,2 millions de documents synthétiques. Le pari ne…
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
NVIDIA a montré comment elle a construit Nemotron OCR v2 — un système d'OCR multilingue où la grande avancée ne provenait pas de trucs architecturaux ingénieux, mais de données synthétiques à grande échelle. L'entreprise a rassemblé un ensemble de données de 12,26 millions de documents générés artificiellement et a entraîné un modèle qui lit plusieurs langues avec un seul moteur et produit jusqu'à 34,7 pages par seconde sur une seule A100.
Accent sur les Données
La version précédente, Nemotron OCR v1, fonctionnait bien avec l'anglais, mais échouait sur d'autres langues. Le benchmark SynthDoG a montré que pour le japonais, le coréen, le russe et le chinois, les valeurs de Normalized Edit Distance étaient trop élevées : les résultats ressemblaient parfois à peine au texte original. L'équipe a même étendu l'ensemble de caractères de 855 à 14 244 pour couvrir le cyrillique et les systèmes d'écriture CJK, mais l'amélioration a été mineure. Le modèle pouvait formellement produire les caractères requis, mais les voyait à peine lors de l'entraînement.
« Le goulot d'étranglement était les données, pas l'architecture. »
C'est devenu le tournant du projet. Annoter manuellement des millions de documents avec des cadres au niveau du mot, de la ligne et du paragraphe aurait été trop coûteux, et le web scraping des PDF produit une couche de texte bruitée et de nombreuses erreurs. NVIDIA a donc pris un chemin différent : générer les documents de manière programmatique et connaître à l'avance les coordonnées exactes, les transcriptions et l'ordre de lecture de chaque fragment.
Comment le Corpus a été Construit
Pour les textes, NVIDIA a utilisé mOSCAR — un grand corpus web multilingue avec 163 sous-ensembles de langue. Cela a permis d'utiliser non pas des listes de dictionnaires ou du texte généré par machine, mais des phrases plus réalistes avec des distributions naturelles de mots et de caractères. Comme moteur de rendu, l'entreprise a pris SynthDoG du projet Donut et l'a considérablement reworké. Le résultat n'est pas seulement des images de pages, mais une annotation hiérarchique complète au niveau du mot, de la ligne et du paragraphe, plus un graphe de relations qui définit l'ordre de lecture.
Le pipeline a ajouté plusieurs éléments importants pour rapprocher les données synthétiques des documents réels :
- mises en page multi-modèles : colonnes, tableaux, texte vertical, tables des matières, diapositives et pages de style Word
- annotation non seulement par cadres mais aussi par hiérarchie d'éléments et relations entre les lignes
- transition vers la reconnaissance basée sur les lignes pour le japonais, le coréen et le chinois, où les limites des mots sont souvent ambiguës
- un grand ensemble de polices ouvertes — de 165 à 1 258 par langue, y compris les familles Google Fonts et Noto
- augmentations agressives : ombres, contours, bruit, flou, distorsions, changements de luminosité et de fond
L'ensemble de données résultant contient 12 258 146 exemples dans six catégories linguistiques : anglais, japonais, coréen, russe, chinois simplifié et chinois traditionnel. Le modèle multilingue lui-même fonctionne comme une seule pile pour l'anglais, le russe, le japonais, le coréen et le chinois, sans étape séparée de détection de langue. La logique d'expansion est également simple : si une nouvelle langue dispose d'un corpus de texte et de polices appropriées, le pipeline peut s'étendre davantage sans annotation manuelle et sans réécriture de l'architecture.
Vitesse et Compromis
Nemotron OCR v2 a été entraîné non seulement sur des données synthétiques, mais aussi sur environ 680 000 images réelles. L'architecture se compose de trois parties : un détecteur de texte basé sur RegNetX-8GF, un reconnaisseur basé sur Transformer et un module relationnel qui comprend quelles lignes et quels blocs sont connectés. L'idée clé est qu'un backbone convolutif lourd traite la page une seule fois, puis ses caractéristiques sont réutilisées par tous les autres composants. De cette façon, le système ne gaspille pas de calcul supplémentaire à chaque étape du pipeline séparément.
Sur le benchmark synthétique, l'amélioration semble très forte. Pour le russe, la NED est passée de 0,564 dans Nemotron OCR v1 à 0,043 dans v2 ; pour le japonais — de 0,723 à 0,046 ; pour le coréen — de 0,923 à 0,047 ; pour le chinois simplifié — de 0,784 à 0,035. Selon NVIDIA, la version multilingue unifiée sur cet ensemble a même surpassé les variantes spécialisées par langue du PaddleOCR.
Mais sur le benchmark réel OmniDocBench, la situation est plus complexe : Nemotron OCR v2 affiche 34,7 pages par seconde contre 1,2 pour PaddleOCR v5, un avantage de vitesse supérieur à 28 fois, mais sur certains sous-ensembles, il est en retrait des meilleurs concurrents en termes de précision. Ici, le produit choisit clairement un équilibre en faveur de la vitesse de traitement plutôt que de la qualité maximale à tout prix.
Ce Que Cela Signifie
Nemotron OCR v2 est un bon signal pour le marché de l'IA documentaire : les données synthétiques fournissent déjà non pas un effet de démonstration, mais une manière pratique de lancer rapidement des modèles d'OCR multilingues et de les adapter à de nouveaux systèmes d'écriture. Pour les entreprises, cela signifie un chemin moins coûteux vers la reconnaissance de documents, particulièrement là où importent la vitesse, la polyvalence et le contrôle sur l'annotation, plutôt qu'un record absolu sur chaque benchmark.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.