PaddleOCR 3.5 recebe suporte a Transformers do Hugging Face
PaddleOCR lançou a versão 3.5 com suporte completo a Transformers como backend de inferência. Agora as equipes podem executar OCR e análise de documentos em amb
Processado por IA de Hugging Face Blog; editado por Hamidun News
PaddleOCR foi atualizada para a versão 3.5 e agora funciona com Transformers do Hugging Face. Em vez do mecanismo de inferência Paddle próprio, as equipes podem usar o ambiente PyTorch familiar para reconhecimento de texto e análise de documentos.
Transformers em vez de
Paddle Antes do lançamento da versão 3.5, PaddleOCR estava "amarrada" ao mecanismo de inferência Paddle — runtime próprio do Baidu. Isso significava que para trabalhar com a biblioteca era necessário instalar toda a pilha Paddle, mesmo que a equipe já estivesse usando PyTorch. A versão 3.5 resolve esse problema: foi adicionada uma interface flexível para seleção de backend através do parâmetro `engine`. Agora, se Transformers estiver instalado, basta especificar `engine="transformers"` — e os modelos OCR funcionarão no PyTorch. Isso é especialmente conveniente para equipes que já usam PyTorch e Transformers em outras partes do projeto. Não é necessário manter dois runtimes separados, não é necessário alternar entre ferramentas ao passar de exploração para produção.
O que é suportado O backend
Transformers funciona com duas famílias de modelos: PP-OCRv5 — reconhecimento de texto em imagens e documentos, incluindo OCR multilíngue PaddleOCR-VL 1.5 — análise de documentos com compreensão visual do layout e estrutura da página * Configuração flexível através de engine_config: seleção de tipo de dados (float32, bfloat16), device placement, tipo de atenção (sdpa para otimização) Um exemplo de uso anterior era simples — `paddleocr ocr -i image.png`. Agora o mesmo, mas no backend Transformers: `paddleocr ocr -i image.png --engine transformers`. Na API Python, é possível configurar mais detalhadamente, especificando o tipo de dados e a implementação de atenção através de `engine_config`.
Para quem é útil O backend Transformers é ideal para vários cenários.
Em primeiro lugar, se você já está trabalhando com a pilha PyTorch — não há necessidade de aprender uma nova ferramenta. Em segundo lugar, se você está construindo aplicações RAG (geração aumentada por recuperação), onde é necessário analisar PDFs e extrair dados estruturados para indexação. Em terceiro lugar, para projetos de Document AI — quando é necessário automatizar o processamento de grandes volumes de documentos. O backend Paddle padrão ainda é útil se a velocidade de processamento for crítica e for necessário o máximo de throughput. É um pouco mais rápido graças às otimizações específicas do Paddle runtime.
O que isso significa
PaddleOCR está gradualmente deixando de ser uma ferramenta isolada e se tornando uma das opções no ecossistema mais amplo do Transformers. Para aplicações RAG e Document AI, isso simplifica significativamente o pipeline: agora uma única pilha PyTorch pode ser usada para embeddings, modelos de linguagem e análise de documentos. Isso reduz a complexidade da implantação em produção e simplifica o suporte a uma única versão de dependências.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.