PaddleOCR выпустила PP-OCRv6: распознавание текста на 50 языках от 1,5 до 34,5 млн параметров
Baidu PaddlePaddle выложила PP-OCRv6 на Hugging Face: три варианта модели от 1,5 до 34,5 млн параметров с поддержкой 50 языков в одном чекпоинте. Прирост по…
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
Baidu PaddlePaddle a publié PP-OCRv6 sur Hugging Face — une nouvelle génération de modèles OCR universels qui reconnaissent du texte dans 50 langues au sein d'une seule architecture. Les améliorations de performance sur les métriques clés par rapport à la version serveur précédente varient de 4,6 à 5,1 points de pourcentage, et la limite inférieure de la famille de modèles s'adapte à 1,5 million de paramètres.
Trois Configurations pour Différentes Tâches
PP-OCRv6 est disponible en trois variantes : Tiny, Small et Medium. La plage de paramètres — de 1,5 à 34,5 millions — couvre le spectre des systèmes embarqués avec des contraintes strictes de mémoire aux pipelines serveur où la précision maximale est critique.
Métriques principales pour les trois configurations :
- Tiny (1,5 million de paramètres) — détection 80,6% Hmean, reconnaissance 73,5%
- Small (7,7 millions de paramètres) — détection 84,1% Hmean, reconnaissance 81,3%
- Medium (34,5 millions de paramètres) — détection 86,2% Hmean, reconnaissance 83,2%
Les versions Small et Medium prennent en charge 50 langues au sein d'un seul modèle : chinois simplifié et traditionnel, anglais, japonais et 46 langues basées sur le latin. Cela élimine le besoin de maintenir et de mettre à jour des modèles de langage distincts — l'une des principales complexités opérationnelles des pipelines OCR en production pour les audiences mondiales.
La version Tiny est conçue pour les scénarios où la vitesse d'inférence est prioritaire avec des ressources de calcul limitées, et la couverture complète des langues n'est pas critique.
Architecture : Grands Noyaux et Attention Légère
Les trois configurations sont construites sur une épine dorsale unifiée PPLCNetV4 qui combine les tâches de détection et de reconnaissance de texte. L'unification réduit les coûts de maintenance et simplifie les transitions entre les tailles de modèles sans reconstruire le pipeline.
La détection de texte utilise RepLKFPN — une pyramide de caractéristiques légère basée sur de grands noyaux convolutifs. Cette conception permet de gérer simultanément du texte à différentes échelles : des petites polices dans les documents juridiques aux grands caractères sur les étiquettes industrielles et les panneaux de rue.
La reconnaissance est gérée par EncoderWithLightSVTR — un hybride de modélisation contextuelle locale et de mécanismes d'attention globale.
Les modèles ont été testés sur un large éventail de scénarios industriels : documents commerciaux, captures d'écran d'interface, étiquettes de prix, afficheurs numériques, panneaux et texte dans des scènes naturelles. Par rapport à PP-OCRv5_server, les améliorations étaient +4,6 points de pourcentage en détection et +5,1 points de pourcentage en reconnaissance.
Trois Chemins vers la Production
PaddleOCR 3.7 fournit une API unifiée pour trois backends de déploiement :
- Transformers — intégration native avec Hugging Face Hub et pipelines PyTorch sans configuration supplémentaire
- ONNX Runtime — format multiplateforme sans dépendances de framework ; pratique pour les infrastructures hétérogènes mélangeant Python, C++ et clients mobiles
- Paddle Inference — format natif pour des performances maximales dans l'infrastructure Baidu
Une collection de 19 modèles a été publiée sur Hugging Face : versions safetensors, fichiers d'inférence Paddle et variantes ONNX — points de contrôle distincts pour la détection et la reconnaissance à chaque taille.
L'inférence retourne deux types de données : JSON structuré avec les coordonnées des boîtes englobantes et le texte reconnu, ainsi qu'une image avec visualisation pour les tâches nécessitant une vérification visuelle.
Pour des tests rapides sans installation de paquets, une démo interactive est disponible sur Hugging Face Spaces.
Ce Que Cela Signifie
PP-OCRv6 aborde deux défis pratiques simultanément : une couverture multilingue sans prolifération de modèles distincts et une flexibilité de déploiement sans couplage fort à l'écosystème PaddlePaddle.
La disponibilité sur Hugging Face rend la bibliothèque accessible à n'importe quelle équipe Python — pour les tâches de documents multilingues, c'est maintenant l'une des options les plus compactes et bien documentées en open source.
Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?
Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.