Hugging Face Blog→ оригинал

PaddleOCR 3.5 получил поддержку Transformers от Hugging Face

PaddleOCR выпустил версию 3.5 с полной поддержкой Transformers как инференс-backend. Теперь команды могут запускать OCR и парсинг документов в PyTorch-окружении

PaddleOCR 3.5 получил поддержку Transformers от Hugging Face
Источник: Hugging Face Blog. Коллаж: Hamidun News.
◐ Слушать статью

PaddleOCR обновилась до версии 3.5 и теперь работает на Transformers из Hugging Face. Вместо собственного Paddle inference engine команды могут использовать привычное PyTorch-окружение для распознавания текста и парсинга документов.

Трансформеры вместо

Paddle До выхода версии 3.5 PaddleOCR была «привязана» к Paddle inference engine — собственному runtime от Baidu. Это означало, что для работы с библиотекой нужно было установить весь Paddle стек, даже если команда уже использовала PyTorch. Версия 3.5 решает эту проблему: добавлен гибкий интерфейс выбора backend через параметр `engine`. Теперь если установлен Transformers, достаточно указать `engine="transformers"` — и OCR-модели будут работать на PyTorch. Это особенно удобно для команд, уже использующих PyTorch и Transformers в других частях проекта. Не нужно поддерживать две отдельные runtime, не нужно переключаться между инструментами при переходе от exploration к production.

Что поддерживается

Transformers backend работает с двумя семействами моделей: PP-OCRv5 — распознавание текста на изображениях и документах, включая многоязычный OCR PaddleOCR-VL 1.5 — парсинг документов с визуальным пониманием макета и структуры страницы * Гибкая конфигурация через engine_config: выбор типа данных (float32, bfloat16), device placement, тип внимания (sdpa для оптимизации) Пример использования раньше был простой — `paddleocr ocr -i image.png`. Теперь то же самое, но на Transformers backend: `paddleocr ocr -i image.png --engine transformers`. В Python API можно конфигурировать детальнее, указав тип данных и реализацию внимания через `engine_config`.

Для кого это полезно Transformers backend идеален для нескольких сценариев.

Во-первых, если вы уже работаете с PyTorch-стеком — не нужно учиться новому инструменту. Во-вторых, если строите RAG-приложения (retrieval-augmented generation), где нужно парсить PDF и извлекать структурированные данные для индексирования. В-третьих, для Document AI проектов — когда нужно автоматизировать обработку больших объёмов документов. Стандартный Paddle backend по-прежнему полезен, если скорость обработки критична и нужен максимальный throughput. Он немного быстрее благодаря оптимизациям, специфичным для Paddle runtime.

Что это значит

PaddleOCR постепенно перестаёт быть изолированным инструментом и становится одной из опций в более широкой экосистеме Transformers. Для RAG и Document AI-приложений это значительно упрощает pipeline: теперь единый PyTorch-стек может использоваться для embeddings, языковых моделей и парсинга документов. Это снижает сложность production-deployment и упрощает поддержку единой версии зависимостей.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…