Hugging Face Blog→ original

PaddleOCR 3.5 recibe soporte para Transformers de Hugging Face

PaddleOCR lanzó la versión 3.5 con soporte completo para Transformers como backend de inferencia. Ahora los equipos pueden ejecutar OCR y análisis de documentos

Procesado por IA desde Hugging Face Blog; editado por Hamidun News
PaddleOCR 3.5 recibe soporte para Transformers de Hugging Face
Fuente: Hugging Face Blog. Collage: Hamidun News.
◐ Escuchar artículo

PaddleOCR se actualizó a la versión 3.5 y ahora se ejecuta en Transformers de Hugging Face. En lugar del motor de inferencia Paddle propietario, los equipos pueden utilizar el entorno PyTorch familiar para el reconocimiento de texto y análisis de documentos.

Transformers en lugar de Paddle

Antes del lanzamiento de la versión 3.5, PaddleOCR estaba «vinculado» al motor de inferencia Paddle, el tiempo de ejecución propietario de Baidu. Esto significaba que para trabajar con la biblioteca había que instalar toda la pila de Paddle, incluso si el equipo ya estaba utilizando PyTorch.

La versión 3.5 resuelve este problema: se agregó una interfaz flexible para seleccionar el backend a través del parámetro `engine`. Ahora, si está instalado Transformers, basta con especificar `engine="transformers"` y los modelos de OCR funcionarán en PyTorch.

Esto es especialmente conveniente para equipos que ya utilizan PyTorch y Transformers en otras partes del proyecto. No es necesario mantener dos tiempos de ejecución separados ni cambiar entre herramientas al pasar de la exploración a la producción.

Qué se admite

El backend de Transformers funciona con dos familias de modelos:

  • PP-OCRv5 — reconocimiento de texto en imágenes y documentos, incluido OCR multilingüe
  • PaddleOCR-VL 1.5 — análisis de documentos con comprensión visual del diseño y estructura de la página
  • Configuración flexible a través de engine_config: selección de tipo de datos (float32, bfloat16), ubicación del dispositivo, tipo de atención (sdpa para optimización)

El ejemplo de uso anterior era simple: `paddleocr ocr -i image.png`. Ahora es lo mismo, pero con el backend de Transformers: `paddleocr ocr -i image.png --engine transformers`.

En la API de Python, puede configurarse más detalladamente, especificando el tipo de datos y la implementación de atención a través de `engine_config`.

Para quién es útil

El backend de Transformers es ideal para varios escenarios. Primero, si ya está trabajando con la pila de PyTorch, no necesita aprender una herramienta nueva. Segundo, si está creando aplicaciones RAG (generación aumentada por recuperación), donde debe analizar archivos PDF y extraer datos estructurados para indexación. Tercero, para proyectos de Document AI, cuando necesita automatizar el procesamiento de grandes volúmenes de documentos.

El backend estándar de Paddle sigue siendo útil si la velocidad de procesamiento es crítica y se requiere el máximo rendimiento. Es un poco más rápido gracias a las optimizaciones específicas del tiempo de ejecución de Paddle.

Qué significa esto

PaddleOCR deja de ser gradualmente una herramienta aislada y se convierte en una opción más dentro del ecosistema más amplio de Transformers. Para aplicaciones RAG y Document AI, esto simplifica significativamente la tubería: ahora se puede utilizar una única pila de PyTorch para incrustaciones, modelos de lenguaje y análisis de documentos. Esto reduce la complejidad del despliegue en producción y facilita el mantenimiento de una única versión de dependencias.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…