PaddleOCR 3.5 recibe soporte para Transformers de Hugging Face
PaddleOCR lanzó la versión 3.5 con soporte completo para Transformers como backend de inferencia. Ahora los equipos pueden ejecutar OCR y análisis de documentos
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
PaddleOCR se actualizó a la versión 3.5 y ahora se ejecuta en Transformers de Hugging Face. En lugar del motor de inferencia Paddle propietario, los equipos pueden utilizar el entorno PyTorch familiar para el reconocimiento de texto y análisis de documentos.
Transformers en lugar de Paddle
Antes del lanzamiento de la versión 3.5, PaddleOCR estaba «vinculado» al motor de inferencia Paddle, el tiempo de ejecución propietario de Baidu. Esto significaba que para trabajar con la biblioteca había que instalar toda la pila de Paddle, incluso si el equipo ya estaba utilizando PyTorch.
La versión 3.5 resuelve este problema: se agregó una interfaz flexible para seleccionar el backend a través del parámetro `engine`. Ahora, si está instalado Transformers, basta con especificar `engine="transformers"` y los modelos de OCR funcionarán en PyTorch.
Esto es especialmente conveniente para equipos que ya utilizan PyTorch y Transformers en otras partes del proyecto. No es necesario mantener dos tiempos de ejecución separados ni cambiar entre herramientas al pasar de la exploración a la producción.
Qué se admite
El backend de Transformers funciona con dos familias de modelos:
- PP-OCRv5 — reconocimiento de texto en imágenes y documentos, incluido OCR multilingüe
- PaddleOCR-VL 1.5 — análisis de documentos con comprensión visual del diseño y estructura de la página
- Configuración flexible a través de engine_config: selección de tipo de datos (float32, bfloat16), ubicación del dispositivo, tipo de atención (sdpa para optimización)
El ejemplo de uso anterior era simple: `paddleocr ocr -i image.png`. Ahora es lo mismo, pero con el backend de Transformers: `paddleocr ocr -i image.png --engine transformers`.
En la API de Python, puede configurarse más detalladamente, especificando el tipo de datos y la implementación de atención a través de `engine_config`.
Para quién es útil
El backend de Transformers es ideal para varios escenarios. Primero, si ya está trabajando con la pila de PyTorch, no necesita aprender una herramienta nueva. Segundo, si está creando aplicaciones RAG (generación aumentada por recuperación), donde debe analizar archivos PDF y extraer datos estructurados para indexación. Tercero, para proyectos de Document AI, cuando necesita automatizar el procesamiento de grandes volúmenes de documentos.
El backend estándar de Paddle sigue siendo útil si la velocidad de procesamiento es crítica y se requiere el máximo rendimiento. Es un poco más rápido gracias a las optimizaciones específicas del tiempo de ejecución de Paddle.
Qué significa esto
PaddleOCR deja de ser gradualmente una herramienta aislada y se convierte en una opción más dentro del ecosistema más amplio de Transformers. Para aplicaciones RAG y Document AI, esto simplifica significativamente la tubería: ahora se puede utilizar una única pila de PyTorch para incrustaciones, modelos de lenguaje y análisis de documentos. Esto reduce la complejidad del despliegue en producción y facilita el mantenimiento de una única versión de dependencias.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.