A NVIDIA apresentou o Nemotron OCR v2: OCR multilíngue treinado com 12,2 milhões de documentos sintéticos
A NVIDIA revelou detalhes do Nemotron OCR v2, um modelo de OCR multilíngue treinado principalmente com 12,2 milhões de documentos sintéticos. A aposta não…
Processado por IA de Hugging Face Blog; editado por Hamidun News
NVIDIA mostrou como construiu o Nemotron OCR v2 — um sistema de OCR multilíngue onde o grande avanço veio não de truques arquiteturais sofisticados, mas de dados sintéticos em larga escala. A empresa reuniu um conjunto de dados com 12,26 milhões de documentos artificialmente gerados e treinou um modelo que lê múltiplos idiomas com um único mecanismo e produz até 34,7 páginas por segundo em uma única A100.
Foco nos Dados
A versão anterior, Nemotron OCR v1, funcionava bem com inglês, mas falhava em outros idiomas. O benchmark SynthDoG mostrou que para japonês, coreano, russo e chinês, os valores de Normalized Edit Distance eram muito altos: os resultados às vezes pouco se pareciam com o texto original. A equipe até expandiu o conjunto de caracteres de 855 para 14.244 para cobrir cirílico e escritas CJK, mas a melhoria foi pequena. O modelo podia formalmente gerar os caracteres necessários, mas raramente os via durante o treinamento.
"O gargalo eram os dados, não a arquitetura."
Isso se tornou o ponto de virada do projeto. Anotar manualmente milhões de documentos com caixas em nível de palavra, linha e parágrafo teria sido muito caro, e fazer web scraping de PDFs gera uma camada de texto ruidosa e muitos erros. Então NVIDIA seguiu um caminho diferente: gerar documentos de forma programática e saber de antemão as coordenadas exatas, transcrições e ordem de leitura de cada fragmento.
Como o Corpus Foi Construído
Para textos, NVIDIA usou mOSCAR — um grande corpus web multilíngue com 163 subconjuntos de idiomas. Isso permitiu usar não listas de dicionários ou texto gerado por máquina, mas frases mais realistas com distribuições naturais de palavras e caracteres. Como mecanismo de renderização, a empresa usou SynthDoG do projeto Donut e o reworkeou substancialmente. A saída não é apenas imagens de páginas, mas uma anotação hierárquica completa em nível de palavra, linha e parágrafo, além de um grafo de relacionamento que define a ordem de leitura.
O pipeline adicionou vários elementos importantes para tornar os dados sintéticos mais próximos de documentos reais:
- layouts multi-template: colunas, tabelas, texto vertical, índices, slides e páginas no estilo Word
- anotação não apenas por caixas mas também por hierarquia de elementos e relacionamentos entre linhas
- transição para reconhecimento baseado em linhas para japonês, coreano e chinês, onde os limites de palavras são frequentemente ambíguos
- um grande conjunto de fontes abertas — de 165 a 1.258 por idioma, incluindo famílias do Google Fonts e Noto
- augmentações agressivas: sombras, contornos, ruído, desfoque, distorções, mudanças de brilho e fundo
O conjunto de dados resultante contém 12.258.146 exemplos em seis categorias de idiomas: inglês, japonês, coreano, russo, chinês simplificado e chinês tradicional. O modelo multilíngue funciona como um único stack para inglês, russo, japonês, coreano e chinês, sem uma etapa separada de detecção de idioma. A lógica de expansão também é simples: se um novo idioma tem um corpus de texto e fontes adequadas, o pipeline pode escalar ainda mais sem anotação manual e sem reescrever a arquitetura.
Velocidade e Compromissos
Nemotron OCR v2 foi treinado não apenas em dados sintéticos, mas também em aproximadamente 680 mil imagens reais. A arquitetura consiste em três partes: um detector de texto baseado em RegNetX-8GF, um reconhecedor baseado em Transformer e um módulo relacional que entende quais linhas e blocos estão conectados. A ideia principal é que um backbone convolucional pesado processa a página uma vez, e então suas features são reutilizadas por todos os outros componentes. Dessa forma, o sistema não desperdiça computação extra em cada etapa do pipeline separadamente.
No benchmark sintético, a melhoria parece muito forte. Para russo, o NED caiu de 0,564 no Nemotron OCR v1 para 0,043 na v2; para japonês — de 0,723 para 0,046; para coreano — de 0,923 para 0,047; para chinês simplificado — de 0,784 para 0,035. De acordo com NVIDIA, a versão multilíngue unificada neste conjunto até superou variantes de idiomas especializadas do PaddleOCR.
Mas no benchmark real OmniDocBench, a situação é mais complexa: Nemotron OCR v2 mostra 34,7 páginas por segundo versus 1,2 do PaddleOCR v5, uma vantagem de velocidade superior a 28 vezes, mas em alguns subconjuntos fica atrás dos melhores concorrentes em precisão. Aqui o produto claramente escolhe um equilíbrio a favor da velocidade de processamento em vez de qualidade máxima a qualquer custo.
O Que Isso Significa
Nemotron OCR v2 é um bom sinal para o mercado de AI de documentos: dados sintéticos já entregam não um efeito de demonstração, mas uma forma prática de lançar rapidamente modelos de OCR multilíngues e escalá-los para novos sistemas de escrita. Para as empresas, isso significa um caminho mais barato para reconhecimento de documentos, especialmente onde velocidade, versatilidade e controle sobre anotação importam, em vez de um recorde absoluto em cada benchmark.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.