Hugging Face Blog→ original

PaddleOCR 3.5 reçoit le support des Transformers de Hugging Face

PaddleOCR a lancé la version 3.5 avec le support complet des Transformers comme backend d'inférence. Les équipes peuvent désormais exécuter l'OCR et l'analyse d

Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
PaddleOCR 3.5 reçoit le support des Transformers de Hugging Face
Source : Hugging Face Blog. Collage: Hamidun News.
◐ Écouter l'article

PaddleOCR a été mise à jour vers la version 3.5 et fonctionne désormais sur les Transformers de Hugging Face. Au lieu du moteur d'inférence Paddle propriétaire, les équipes peuvent utiliser l'environnement PyTorch familier pour la reconnaissance de texte et l'analyse de documents.

Les Transformers à la place de Paddle

Avant la sortie de la version 3.5, PaddleOCR était « liée » au moteur d'inférence Paddle — un runtime propriétaire de Baidu. Cela signifiait que pour utiliser la bibliothèque, il fallait installer l'ensemble de la pile Paddle, même si l'équipe utilisait déjà PyTorch.

La version 3.5 résout ce problème : elle ajoute une interface flexible pour sélectionner le backend via le paramètre `engine`. Maintenant, si Transformers est installé, il suffit de spécifier `engine="transformers"` — et les modèles OCR fonctionneront sur PyTorch.

C'est particulièrement pratique pour les équipes qui utilisent déjà PyTorch et Transformers dans d'autres parties du projet. Pas besoin de maintenir deux runtimes distincts, pas besoin de basculer entre les outils lors du passage de l'exploration à la production.

Ce qui est pris en charge

Le backend Transformers fonctionne avec deux familles de modèles :

  • PP-OCRv5 — reconnaissance de texte sur images et documents, y compris l'OCR multilingue
  • PaddleOCR-VL 1.5 — analyse de documents avec compréhension visuelle de la mise en page et de la structure de la page
  • Configuration flexible via engine_config : sélection du type de données (float32, bfloat16), placement du device, type d'attention (sdpa pour l'optimisation)

L'utilisation était simple auparavant — `paddleocr ocr -i image.png`. Maintenant c'est la même chose, mais sur le backend Transformers : `paddleocr ocr -i image.png --engine transformers`. Dans l'API Python, vous pouvez configurer plus en détail en spécifiant le type de données et l'implémentation de l'attention via `engine_config`.

Pour qui c'est utile

Le backend Transformers est idéal pour plusieurs scénarios. Premièrement, si vous travaillez déjà avec la pile PyTorch — pas besoin d'apprendre un nouvel outil. Deuxièmement, si vous construisez des applications RAG (génération augmentée par récupération), où vous devez analyser des PDF et extraire des données structurées pour l'indexation. Troisièmement, pour les projets Document AI — lorsque vous devez automatiser le traitement de grands volumes de documents. Le backend Paddle standard reste utile si la vitesse de traitement est critique et que vous avez besoin du débit maximal. Il est légèrement plus rapide grâce aux optimisations spécifiques au runtime Paddle.

Ce que cela signifie

PaddleOCR cesse progressivement d'être un outil isolé et devient l'une des options d'un écosystème Transformers plus large. Pour les applications RAG et Document AI, cela simplifie considérablement le pipeline : maintenant une pile PyTorch unique peut être utilisée pour les embeddings, les modèles de langage et l'analyse de documents. Cela réduit la complexité du déploiement en production et simplifie la maintenance d'une seule version des dépendances.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…