Mistral выпустила OCR 4: bounding boxes, 170 языков и self-hosted деплой
Mistral AI выпустила OCR 4 — движок нового поколения для распознавания документов. Теперь модель возвращает не только текст, но и координаты каждого блока…
AI-обработка оригинала Mistral AI News; редакция Hamidun News
Mistral AI выпустила OCR 4 — движок для интеллектуальной обработки корпоративных документов. В отличие от предшественников, модель возвращает не просто извлечённый текст, а полную структурированную карту документа: координаты блоков, их типы и оценки уверенности для каждого слова.
Что изменилось в четвёртой версии
Самое востребованное нововведение — bounding boxes: каждый блок текста теперь получает точные координаты на странице. Это позволяет downstream-системам выделять цитируемый источник прямо в интерфейсе, строить надёжные пайплайны данных и внедрять human-in-the-loop проверку для чувствительных документов. До этого большинство OCR-решений выдавали «плоский» текст без привязки к положению на странице.
Помимо координат, OCR 4 классифицирует каждый блок по типу: заголовок, подзаголовок, параграф, таблица, уравнение, подпись к изображению. Вместе с inline-оценками уверенности — на уровне страницы и каждого отдельного слова — это открывает принципиально новые сценарии: цитирование с точной привязкой к источнику, автоматическое редактирование конфиденциальных данных, управляемая оператором верификация результатов. RAG-пайплайны выигрывают особенно заметно: классифицированные блоки становятся качественными retrieval-единицами, а агенты получают возможность не просто читать документы, но действовать на их основе — заполнять формы, обрабатывать счета, выполнять compliance-проверки.
Технические характеристики и цены OCR 4 принимает стандартные
корпоративные форматы — PDF, DOC, PPT, OpenDocument — и поддерживает 170 языков в 10 языковых группах. Mistral особо указывает на прирост качества для редких и низкоресурсных языков, где большинство конкурирующих систем заметно деградирует. Ключевые возможности: Bounding boxes — точная локализация каждого блока на странице Типизация блоков — заголовки, таблицы, уравнения, подписи, изображения Оценки уверенности — на уровне страницы и каждого слова 170 языков в 10 языковых группах, включая низкоресурсные * Single-container деплой — вся модель помещается в один контейнер Цены через API: $4 за тысячу страниц.
При пакетной обработке через Batch API действует скидка 50% — итого $2 за тысячу страниц. Document AI в Mistral Studio (no-code интерфейс) оценивается в $5 за тысячу страниц. Self-hosted деплой в одном контейнере доступен корпоративным клиентам, которым важны суверенитет данных, соответствие регуляторным требованиям и высокопроизводительная пакетная обработка.
Компактный размер модели делает её подходящей как для бюджетных сценариев, так и для высоконагруженной обработки.
Бенчмарки и интеграции
Независимые аннотаторы предпочли OCR 4 всем протестированным OCR и Document AI системам — средний win rate составил 72%. На публичном бенчмарке OlmOCRBench модель набрала 85.20 — лучший результат среди протестированных решений на момент публикации.
«Downstream-системы получают доступ не только к тому, что написано в
документе, но и к тому, где находится каждый элемент, какую роль он играет и насколько модель уверена в каждой области страницы», — так Mistral описывает философию релиза. OCR 4 интегрирован в Mistral Search Toolkit — открытый фреймворк для корпоративного поиска, анонсированный на AI Now Summit. Он служит ingestion-компонентом для RAG-пайплайнов и enterprise search: структурированный вывод модели становится citation-ready входом для систем retrieval, оценки и переранжирования результатов.
Что это значит
Mistral превращает распознавание документов из вспомогательной утилиты в инфраструктурный примитив корпоративных AI-систем. Структурированный вывод с координатами, типами блоков и оценками уверенности — это именно тот уровень детализации, который нужен агентным системам для надёжной работы с реальными документами. Игроки, строящие RAG-платформы и document intelligence решения, получают готовый компонент без необходимости дополнительной постобработки.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.