Mistral AI News→ original

Mistral lanzó OCR 4: bounding boxes, 170 idiomas y despliegue self-hosted

Mistral AI lanzó OCR 4 — un motor de nueva generación para el reconocimiento de documentos. Ahora el modelo devuelve no solo texto, sino también las…

Procesado por IA desde Mistral AI News; editado por Hamidun News
Mistral lanzó OCR 4: bounding boxes, 170 idiomas y despliegue self-hosted
Fuente: Mistral AI News. Collage: Hamidun News.
◐ Escuchar artículo

Mistral AI lanzó OCR 4 — un motor para el procesamiento inteligente de documentos corporativos. A diferencia de sus predecesores, el modelo devuelve no solo texto extraído, sino un mapa estructurado completo del documento: coordenadas de bloques, sus tipos y puntuaciones de confianza para cada palabra.

Qué cambió en la cuarta versión

La innovación más buscada es bounding boxes: cada bloque de texto ahora recibe coordenadas precisas en la página. Esto permite que los sistemas descendentes destaquen fuentes citadas directamente en la interfaz, construyan pipelines de datos confiables e implementen verificación human-in-the-loop para documentos sensibles. Anteriormente, la mayoría de soluciones OCR devolvían texto "plano" sin vinculación a la posición en la página.

Además de las coordenadas, OCR 4 clasifica cada bloque por tipo: encabezado, subencabezado, párrafo, tabla, ecuación, pie de imagen. Combinado con puntuaciones de confianza inline — a nivel de página y para cada palabra individual — esto abre escenarios fundamentalmente nuevos: citación con atribución precisa de fuente, redacción automática de datos confidenciales, verificación dirigida por operador de resultados.

Los pipelines RAG se benefician especialmente notablemente: los bloques clasificados se convierten en unidades de retrieval de calidad, y los agentes obtienen la capacidad no solo de leer documentos, sino de actuar en base a ellos — rellenar formularios, procesar facturas, realizar verificaciones de cumplimiento.

Características técnicas y precios

OCR 4 acepta formatos corporativos estándar — PDF, DOC, PPT, OpenDocument — y soporta 170 idiomas en 10 grupos lingüísticos. Mistral destaca especialmente las ganancias de calidad para idiomas raros y de bajo recurso, donde la mayoría de sistemas competidores muestran degradación notable.

Capacidades clave:

  • Bounding boxes — localización precisa de cada bloque en la página
  • Tipificación de bloques — encabezados, tablas, ecuaciones, pies de foto, imágenes
  • Puntuaciones de confianza — a nivel de página y para cada palabra
  • 170 idiomas en 10 grupos lingüísticos, incluidos los de bajo recurso
  • Despliegue en contenedor único — el modelo completo cabe en un contenedor

Precios a través de API: $4 por mil páginas. Con procesamiento por lotes a través de Batch API, se aplica un descuento del 50% — total $2 por mil páginas. Document AI en Mistral Studio (interfaz sin código) tiene un precio de $5 por mil páginas.

El despliegue self-hosted en un único contenedor está disponible para clientes corporativos que priorizan la soberanía de datos, el cumplimiento normativo y el procesamiento por lotes de alto rendimiento. El tamaño compacto del modelo lo hace adecuado tanto para escenarios de presupuesto como para procesamiento de alta carga.

Benchmarks e integraciones

Anotadores independientes prefirieron OCR 4 a todos los sistemas OCR y Document AI probados — la tasa de victoria promedio fue del 72%. En el benchmark público OlmOCRBench, el modelo obtuvo 85.20 — el mejor resultado entre soluciones probadas en el momento de la publicación.

"Los sistemas descendentes obtienen acceso no solo a lo que está

escrito en el documento, sino también a dónde está ubicado cada elemento, qué rol juega y cuán seguro está el modelo en cada área de la página," — así es como Mistral describe la filosofía del lanzamiento.

OCR 4 está integrado en Mistral Search Toolkit — un framework abierto para búsqueda empresarial anunciado en AI Now Summit. Sirve como componente de ingesta para pipelines RAG y búsqueda empresarial: la salida estructurada del modelo se convierte en entrada lista para citación para sistemas de retrieval, puntuación y reranking de resultados.

Qué significa esto

Mistral está convirtiendo el reconocimiento de documentos de una utilidad auxiliar en un primitivo de infraestructura de sistemas corporativos de IA. Salida estructurada con coordenadas, tipos de bloques y puntuaciones de confianza — este es exactamente el nivel de detalle que los sistemas agentes necesitan para trabajar de forma confiable con documentos reales. Los jugadores que construyen plataformas RAG y soluciones de inteligencia de documentos obtienen un componente listo sin necesidad de posprocesamiento adicional.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

¿Qué te parece?
Cargando comentarios…