Mistral AI News→ original

Mistral lançou o OCR 4: bounding boxes, 170 idiomas e implantação self-hosted

A Mistral AI lançou o OCR 4 — um motor de nova geração para reconhecimento de documentos. Agora, o modelo retorna não apenas texto, mas também as coordenadas…

Processado por IA de Mistral AI News; editado por Hamidun News
Mistral lançou o OCR 4: bounding boxes, 170 idiomas e implantação self-hosted
Fonte: Mistral AI News. Colagem: Hamidun News.
◐ Ouvir artigo

A Mistral AI lançou OCR 4 — um mecanismo para processamento inteligente de documentos corporativos. Diferentemente de seus antecessores, o modelo retorna não apenas texto extraído, mas um mapa estruturado completo do documento: coordenadas de blocos, seus tipos e pontuações de confiança para cada palavra.

O que mudou na quarta versão

A inovação mais procurada é bounding boxes: cada bloco de texto agora recebe coordenadas precisas na página. Isso permite que sistemas downstream destaquem fontes citadas diretamente na interface, construam pipelines de dados confiáveis e implementem verificação human-in-the-loop para documentos sensíveis. Anteriormente, a maioria das soluções OCR retornava texto "plano" sem vinculação à posição na página.

Além das coordenadas, OCR 4 classifica cada bloco por tipo: título, subtítulo, parágrafo, tabela, equação, legenda de imagem. Combinado com pontuações de confiança inline — no nível da página e para cada palavra individual — isso abre cenários fundamentalmente novos: citação com atribuição precisa de fonte, remoção automática de dados confidenciais, verificação gerenciada por operador de resultados.

Pipelines RAG se beneficiam especialmente notavelmente: blocos classificados se tornam unidades de retrieval de qualidade, e agentes ganham a capacidade não apenas de ler documentos, mas de agir com base neles — preencher formulários, processar faturas, realizar verificações de conformidade.

Características técnicas e preços

OCR 4 aceita formatos corporativos padrão — PDF, DOC, PPT, OpenDocument — e suporta 170 idiomas em 10 grupos de idiomas. Mistral destaca especificamente ganhos de qualidade para idiomas raros e de baixo recurso, onde a maioria dos sistemas concorrentes mostra degradação notável.

Recursos principais:

  • Bounding boxes — localização precisa de cada bloco na página
  • Tipagem de blocos — títulos, tabelas, equações, legendas, imagens
  • Pontuações de confiança — no nível da página e para cada palavra
  • 170 idiomas em 10 grupos de idiomas, incluindo os de baixo recurso
  • Implantação em contêiner único — todo o modelo cabe em um contêiner

Preços através da API: $4 por mil páginas. Com processamento em lote através da Batch API, um desconto de 50% se aplica — total $2 por mil páginas. Document AI no Mistral Studio (interface sem código) é precificado em $5 por mil páginas.

Implantação self-hosted em um único contêiner está disponível para clientes corporativos que priorizam soberania de dados, conformidade regulatória e processamento em lote de alto desempenho. O tamanho compacto do modelo o torna adequado tanto para cenários de orçamento quanto para processamento de alta carga.

Benchmarks e integrações

Anotadores independentes preferiram OCR 4 a todos os sistemas OCR e Document AI testados — a taxa média de vitória foi de 72%. No benchmark público OlmOCRBench, o modelo marcou 85.20 — o melhor resultado entre soluções testadas no momento da publicação.

"Sistemas downstream ganham acesso não apenas ao que está escrito no

documento, mas também ao local onde cada elemento está localizado, que papel desempenha e como confiante o modelo está em cada área da página," — é assim que Mistral descreve a filosofia do lançamento.

OCR 4 está integrado ao Mistral Search Toolkit — um framework aberto para busca empresarial anunciado na AI Now Summit. Ele serve como componente de ingestão para pipelines RAG e busca empresarial: a saída estruturada do modelo se torna entrada pronta para citação para sistemas de retrieval, pontuação e reranking de resultados.

O que isso significa

Mistral está transformando reconhecimento de documentos de um utilitário auxiliar em um primitivo de infraestrutura de sistemas corporativos de AI. Saída estruturada com coordenadas, tipos de blocos e pontuações de confiança — este é exatamente o nível de detalhe que sistemas agentes precisam para trabalho confiável com documentos reais. Jogadores que constroem plataformas RAG e soluções de inteligência de documentos obtêm um componente pronto sem necessidade de pós-processamento adicional.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

O que você acha?
Carregando comentários…