Hugging Face Blog→ original

A NVIDIA apresentou o Nemotron OCR v2: OCR multilíngue treinado com 12,2 milhões de documentos sintéticos

A NVIDIA revelou detalhes do Nemotron OCR v2, um modelo de OCR multilíngue treinado principalmente com 12,2 milhões de documentos sintéticos. A aposta não…

Processado por IA de Hugging Face Blog; editado por Hamidun News
A NVIDIA apresentou o Nemotron OCR v2: OCR multilíngue treinado com 12,2 milhões de documentos sintéticos
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

NVIDIA mostrou como construiu o Nemotron OCR v2 — um sistema de OCR multilíngue onde o grande avanço veio não de truques arquiteturais sofisticados, mas de dados sintéticos em larga escala. A empresa reuniu um conjunto de dados com 12,26 milhões de documentos artificialmente gerados e treinou um modelo que lê múltiplos idiomas com um único mecanismo e produz até 34,7 páginas por segundo em uma única A100.

Foco nos Dados

A versão anterior, Nemotron OCR v1, funcionava bem com inglês, mas falhava em outros idiomas. O benchmark SynthDoG mostrou que para japonês, coreano, russo e chinês, os valores de Normalized Edit Distance eram muito altos: os resultados às vezes pouco se pareciam com o texto original. A equipe até expandiu o conjunto de caracteres de 855 para 14.244 para cobrir cirílico e escritas CJK, mas a melhoria foi pequena. O modelo podia formalmente gerar os caracteres necessários, mas raramente os via durante o treinamento.

"O gargalo eram os dados, não a arquitetura."

Isso se tornou o ponto de virada do projeto. Anotar manualmente milhões de documentos com caixas em nível de palavra, linha e parágrafo teria sido muito caro, e fazer web scraping de PDFs gera uma camada de texto ruidosa e muitos erros. Então NVIDIA seguiu um caminho diferente: gerar documentos de forma programática e saber de antemão as coordenadas exatas, transcrições e ordem de leitura de cada fragmento.

Como o Corpus Foi Construído

Para textos, NVIDIA usou mOSCAR — um grande corpus web multilíngue com 163 subconjuntos de idiomas. Isso permitiu usar não listas de dicionários ou texto gerado por máquina, mas frases mais realistas com distribuições naturais de palavras e caracteres. Como mecanismo de renderização, a empresa usou SynthDoG do projeto Donut e o reworkeou substancialmente. A saída não é apenas imagens de páginas, mas uma anotação hierárquica completa em nível de palavra, linha e parágrafo, além de um grafo de relacionamento que define a ordem de leitura.

O pipeline adicionou vários elementos importantes para tornar os dados sintéticos mais próximos de documentos reais:

  • layouts multi-template: colunas, tabelas, texto vertical, índices, slides e páginas no estilo Word
  • anotação não apenas por caixas mas também por hierarquia de elementos e relacionamentos entre linhas
  • transição para reconhecimento baseado em linhas para japonês, coreano e chinês, onde os limites de palavras são frequentemente ambíguos
  • um grande conjunto de fontes abertas — de 165 a 1.258 por idioma, incluindo famílias do Google Fonts e Noto
  • augmentações agressivas: sombras, contornos, ruído, desfoque, distorções, mudanças de brilho e fundo

O conjunto de dados resultante contém 12.258.146 exemplos em seis categorias de idiomas: inglês, japonês, coreano, russo, chinês simplificado e chinês tradicional. O modelo multilíngue funciona como um único stack para inglês, russo, japonês, coreano e chinês, sem uma etapa separada de detecção de idioma. A lógica de expansão também é simples: se um novo idioma tem um corpus de texto e fontes adequadas, o pipeline pode escalar ainda mais sem anotação manual e sem reescrever a arquitetura.

Velocidade e Compromissos

Nemotron OCR v2 foi treinado não apenas em dados sintéticos, mas também em aproximadamente 680 mil imagens reais. A arquitetura consiste em três partes: um detector de texto baseado em RegNetX-8GF, um reconhecedor baseado em Transformer e um módulo relacional que entende quais linhas e blocos estão conectados. A ideia principal é que um backbone convolucional pesado processa a página uma vez, e então suas features são reutilizadas por todos os outros componentes. Dessa forma, o sistema não desperdiça computação extra em cada etapa do pipeline separadamente.

No benchmark sintético, a melhoria parece muito forte. Para russo, o NED caiu de 0,564 no Nemotron OCR v1 para 0,043 na v2; para japonês — de 0,723 para 0,046; para coreano — de 0,923 para 0,047; para chinês simplificado — de 0,784 para 0,035. De acordo com NVIDIA, a versão multilíngue unificada neste conjunto até superou variantes de idiomas especializadas do PaddleOCR.

Mas no benchmark real OmniDocBench, a situação é mais complexa: Nemotron OCR v2 mostra 34,7 páginas por segundo versus 1,2 do PaddleOCR v5, uma vantagem de velocidade superior a 28 vezes, mas em alguns subconjuntos fica atrás dos melhores concorrentes em precisão. Aqui o produto claramente escolhe um equilíbrio a favor da velocidade de processamento em vez de qualidade máxima a qualquer custo.

O Que Isso Significa

Nemotron OCR v2 é um bom sinal para o mercado de AI de documentos: dados sintéticos já entregam não um efeito de demonstração, mas uma forma prática de lançar rapidamente modelos de OCR multilíngues e escalá-los para novos sistemas de escrita. Para as empresas, isso significa um caminho mais barato para reconhecimento de documentos, especialmente onde velocidade, versatilidade e controle sobre anotação importam, em vez de um recorde absoluto em cada benchmark.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…