Como automatizar a leitura de desenhos técnicos: 6 modelos YOLO em vez de trabalho manual
Um sistema com 6 modelos YOLO e OCR customizado extrai automaticamente de desenhos técnicos todos os parâmetros que afetam o custo: dimensões, roscas, material

Extrair dados de desenhos técnicos manualmente é um trabalho tedioso propenso a erros. Ao encomdar a fabricação de uma peça personalizada, você precisa inserir manualmente aproximadamente 20 parâmetros do desenho em uma calculadora: dimensões, roscas, tolerâncias, rugosidade de superfície, desvios, material, peso. Um time de engenharia montou um pipeline automatizado que pega um desenho em PDF, lê como um humano faria, e extrai tudo o que é necessário em forma estruturada. A saída é JSON para a calculadora.
Arquitetura da Solução
O sistema funciona em três etapas: localização de dados, reconhecimento de texto, síntese de resultado. Um desenho PDF entra, JSON com parâmetros sai. Etapas intermediárias:
- Normalização de resolução e contraste
- Extração de projeções (vista frontal, lateral, superior)
- Separação do contorno da peça de linhas auxiliares
- Localização de campos de texto e setas de dimensão
- Reconhecimento de símbolos (rosca, tolerância, rugosidade)
- Vinculação de setas aos seus valores através de um grafo de conectividade
Componentes do Pipeline
Seis modelos YOLO especializados são usados para visão computacional. Cada um é treinado em um subconjunto de 500+ desenhos reais de produção:
1. Detecção de projeções — encontra vistas frontal, lateral, superior no desenho. 2. Localização de dimensões — destaca todas as setas de dimensão e campos de texto. 3. Reconhecimento de símbolos especiais — lê designações de rosca (M10), graus de tolerância (IT6), rugosidade de superfície (Ra 3.2). 4. Contorno da peça — separa o contorno visível de linhas auxiliares. 5. Linhas auxiliares — encontra linhas de eixo e elementos de construção auxiliares. 6. Setas e indicadores — localiza todos os tipos de setas e valores de texto associados.
OCR customizado é conectado ao YOLO — soluções padrão têm dificuldade em ler anotações manuscritas e símbolos especiais como ∅ (diâmetro) e convenções de designação de roscas. A rede neural foi treinada em um dataset com anotações de especialistas. Lógica de setas é um grafo ponderado: se uma seta começa no ponto A, passa pelo objeto geométrico B e termina perto do texto C, então o valor C pertence ao objeto A. Na prática é mais complexo: setas podem ser tracejadas, em forma de S, múltiplas setas podem apontar para um local, causando ambiguidade.
A Realidade se Coloca no Caminho
Testes em desenhos de produção revelaram problemas que não existem em datasets ideais:
- Digitalizações sujas — desenhos de 20 anos atrás, digitalizações de máquinas copiadoras, manchas de água, marcas aleatórias de lápis.
- Liberdades tipográficas — roscas podem ser escritas como "Ø10×1.5", "M10" ou até desenhadas como mola.
- Anotações coloridas — dimensões destacadas em caneta vermelha, mas OCR frequentemente filtra linhas vermelhas como ruído.
- Folhas superlotadas — 30+ dimensões em um desenho, setas se cruzam, criando confusão.
A solução veio de augmentação de dados: desenhos sintéticos foram gerados com ruído adicionado, lixo, mudanças de contraste e imitação de digitalizações antigas. Após treinamento no dataset expandido, a qualidade em desenhos sujos melhorou de 68% para 92%.
O Que Isso Significa
Automatizar a leitura de desenhos é um exemplo de como o trabalho humano é substituído por uma combinação de ferramentas publicamente disponíveis (YOLO) + lógica de engenharia (grafo de setas) + ajuste especializado. Para fabricação, é uma aceleração de 15x: em vez de 30 minutos de entrada manual — 2 minutos no piloto automático. Para negócios — entrega mais rápida de orçamentos sem entrada manual de dados.