Mistral AI News→ original

Mistral a lancé OCR 4 : bounding boxes, 170 langues et déploiement self-hosted

Mistral AI a lancé OCR 4 — un moteur de nouvelle génération pour la reconnaissance de documents. Le modèle renvoie désormais non seulement le texte, mais…

Traité par IA depuis Mistral AI News ; édité par Hamidun News
Mistral a lancé OCR 4 : bounding boxes, 170 langues et déploiement self-hosted
Source : Mistral AI News. Collage: Hamidun News.
◐ Écouter l'article

Mistral AI a lancé OCR 4 — un moteur pour le traitement intelligent des documents d'entreprise. Contrairement à ses prédécesseurs, le modèle retourne non seulement du texte extrait, mais une carte structurée complète du document : coordonnées des blocs, leurs types et scores de confiance pour chaque mot.

Ce qui a changé dans la quatrième version

L'innovation la plus recherchée est bounding boxes : chaque bloc de texte reçoit maintenant des coordonnées précises sur la page. Cela permet aux systèmes aval de mettre en évidence les sources citées directement dans l'interface, de construire des pipelines de données fiables et de mettre en œuvre une vérification human-in-the-loop pour les documents sensibles. Auparavant, la plupart des solutions OCR retournaient du texte « plat » sans lien à la position sur la page.

En plus des coordonnées, OCR 4 classe chaque bloc par type : titre, sous-titre, paragraphe, tableau, équation, légende d'image. Combiné avec des scores de confiance inline — au niveau de la page et pour chaque mot individuel — cela ouvre des scénarios fondamentalement nouveaux : citation avec attribution précise de source, rédaction automatique de données confidentielles, vérification gérée par opérateur des résultats.

Les pipelines RAG bénéficient particulièrement notablement : les blocs classifiés deviennent des unités de retrieval de qualité, et les agents obtiennent la capacité non seulement de lire les documents, mais d'agir sur leur base — remplir des formulaires, traiter des factures, effectuer des contrôles de conformité.

Caractéristiques techniques et tarification

OCR 4 accepte les formats d'entreprise standards — PDF, DOC, PPT, OpenDocument — et supporte 170 langues dans 10 groupes linguistiques. Mistral souligne particulièrement les gains de qualité pour les langues rares et peu dotées en ressources, où la plupart des systèmes concurrents montrent une dégradation notable.

Capacités clés :

  • Bounding boxes — localisation précise de chaque bloc sur la page
  • Typage de blocs — titres, tableaux, équations, légendes, images
  • Scores de confiance — au niveau de la page et pour chaque mot
  • 170 langues dans 10 groupes linguistiques, y compris celles peu dotées en ressources
  • Déploiement en conteneur unique — l'ensemble du modèle tient dans un conteneur

Tarification via API : $4 par mille pages. Avec le traitement par lots via Batch API, une réduction de 50% s'applique — total $2 par mille pages. Document AI dans Mistral Studio (interface sans code) est tarifé à $5 par mille pages.

Le déploiement self-hosted dans un conteneur unique est disponible pour les clients d'entreprise qui privilégient la souveraineté des données, la conformité réglementaire et le traitement par lots haute performance. La taille compacte du modèle le rend approprié à la fois pour les scénarios d'économie et pour le traitement haute charge.

Benchmarks et intégrations

Les annotateurs indépendants ont préféré OCR 4 à tous les systèmes OCR et Document AI testés — le taux de victoire moyen était de 72 %. Sur le benchmark public OlmOCRBench, le modèle a obtenu 85.20 — le meilleur résultat parmi les solutions testées au moment de la publication.

«

Les systèmes aval obtiennent l'accès non seulement à ce qui est écrit dans le document, mais aussi à l'endroit où se trouve chaque élément, le rôle qu'il joue et à quel point le modèle est confiant dans chaque zone de la page, » — c'est ainsi que Mistral décrit la philosophie du lancement.

OCR 4 est intégré dans Mistral Search Toolkit — un framework ouvert pour la recherche d'entreprise annoncé à AI Now Summit. Il sert de composant d'ingestion pour les pipelines RAG et la recherche d'entreprise : la sortie structurée du modèle devient une entrée prête pour la citation pour les systèmes de retrieval, de notation et de réclassement des résultats.

Ce que cela signifie

Mistral transforme la reconnaissance de documents d'un utilitaire auxiliaire en une primitive d'infrastructure des systèmes IA d'entreprise. La sortie structurée avec coordonnées, types de blocs et scores de confiance — c'est exactement le niveau de détail que les systèmes agentiques ont besoin pour un travail fiable avec des documents réels. Les acteurs construisant des plateformes RAG et des solutions de document intelligence obtiennent un composant prêt sans besoin de post-traitement supplémentaire.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?

Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).

Qu'en pensez-vous ?
Chargement des commentaires…