NVIDIA presentó Nemotron OCR v2: OCR multilingüe entrenado con 12,2 millones de documentos sintéticos
NVIDIA reveló detalles de Nemotron OCR v2, un modelo de OCR multilingüe entrenado principalmente con 12,2 millones de documentos sintéticos. La apuesta no…
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
NVIDIA mostró cómo construyó Nemotron OCR v2 — un sistema de OCR multilingüe donde el gran avance no provino de trucos arquitectónicos ingeniosos, sino de datos sintéticos a gran escala. La empresa reunió un conjunto de datos de 12,26 millones de documentos generados artificialmente y entrenó un modelo que lee múltiples idiomas con un único motor y produce hasta 34,7 páginas por segundo en una sola A100.
Énfasis en los Datos
La versión anterior, Nemotron OCR v1, funcionaba con confianza en inglés, pero fracasaba en otros idiomas. El benchmark SynthDoG mostró que para japonés, coreano, ruso y chino, los valores de Normalized Edit Distance eran demasiado altos: los resultados a veces apenas se parecían al texto original. El equipo incluso expandió el conjunto de caracteres de 855 a 14.244 para cubrir cirílico y sistemas de escritura CJK, pero la mejora fue pequeña. El modelo podía formalmente emitir los caracteres necesarios, pero casi nunca los veía durante el entrenamiento.
"El cuello de botella eran los datos, no la arquitectura."
Esto se convirtió en el punto de inflexión del proyecto. Etiquetar manualmente millones de documentos con cuadros en el nivel de palabra, línea y párrafo habría sido demasiado costoso, y el web scraping de PDFs genera una capa de texto ruidosa y muchos errores. Por lo tanto, NVIDIA tomó un camino diferente: generar documentos programáticamente y saber de antemano las coordenadas exactas, transcripciones y orden de lectura de cada fragmento.
Cómo se Construyó el Corpus
Para textos, NVIDIA utilizó mOSCAR — un gran corpus web multilingüe con 163 subconjuntos de idiomas. Esto permitió usar no listas de diccionarios ni texto generado por máquina, sino frases más realistas con distribuciones naturales de palabras y caracteres. Como motor de renderización, la empresa tomó SynthDoG del proyecto Donut y lo reworkeó sustancialmente. El resultado no son solo imágenes de páginas, sino una anotación jerárquica completa en el nivel de palabra, línea y párrafo, más un grafo de relaciones que define el orden de lectura.
El pipeline añadió varios elementos importantes para hacer que los datos sintéticos estuvieran más cerca de los documentos reales:
- layouts multiplantilla: columnas, tablas, texto vertical, índices, diapositivas y páginas al estilo Word
- anotación no solo por cuadros sino también por jerarquía de elementos y relaciones entre líneas
- transición al reconocimiento basado en líneas para japonés, coreano y chino, donde los límites de palabras suelen ser ambiguos
- un gran conjunto de fuentes abiertas — de 165 a 1.258 por idioma, incluyendo familias de Google Fonts y Noto
- aumentaciones agresivas: sombras, contornos, ruido, desenfoque, distorsiones, cambios de brillo y fondo
El conjunto de datos resultante contiene 12.258.146 ejemplos en seis categorías de idiomas: inglés, japonés, coreano, ruso, chino simplificado y chino tradicional. El modelo multilingüe en sí funciona como un único stack para inglés, ruso, japonés, coreano y chino, sin un paso separado de detección de idioma. La lógica de expansión también es simple: si un nuevo idioma tiene un corpus de texto y fuentes adecuadas, el pipeline puede escalar más sin anotación manual y sin reescribir la arquitectura.
Velocidad y Compromisos
Nemotron OCR v2 se entrenó no solo con datos sintéticos sino también con aproximadamente 680.000 imágenes reales. La arquitectura consta de tres partes: un detector de texto basado en RegNetX-8GF, un reconocedor basado en Transformer y un módulo relacional que entiende qué líneas y bloques están conectados. La idea clave es que un backbone convolucional pesado procesa la página una vez, y luego sus características se reutilizan en todos los demás componentes. De esta manera, el sistema no desperdicia cálculos extras en cada etapa del pipeline por separado.
En el benchmark sintético, la mejora se ve muy fuerte. Para ruso, el NED bajó de 0,564 en Nemotron OCR v1 a 0,043 en v2; para japonés — de 0,723 a 0,046; para coreano — de 0,923 a 0,047; para chino simplificado — de 0,784 a 0,035. Según NVIDIA, la versión multilingüe unificada en este conjunto incluso superó variantes de idiomas especializados de PaddleOCR.
Pero en el benchmark real OmniDocBench, la situación es más compleja: Nemotron OCR v2 muestra 34,7 páginas por segundo frente a 1,2 de PaddleOCR v5, una ventaja de velocidad de más de 28 veces, pero en algunos subconjuntos queda por detrás de los mejores competidores en precisión. Aquí el producto claramente elige un balance a favor de la velocidad de procesamiento en lugar de la máxima calidad a cualquier precio.
Qué Significa Esto
Nemotron OCR v2 es una buena señal para el mercado de IA de documentos: los datos sintéticos ya entregan no un efecto de demostración, sino una forma práctica de lanzar rápidamente modelos de OCR multilingües y escalarlos a nuevos sistemas de escritura. Para las empresas, esto significa un camino más barato hacia el reconocimiento de documentos, especialmente donde importan la velocidad, versatilidad y control sobre la anotación, en lugar de un récord absoluto en cada benchmark.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.