Habr AI→ original

Como automatizar a leitura de desenhos técnicos: 6 modelos YOLO em vez de trabalho manual

Um sistema com 6 modelos YOLO e OCR customizado extrai automaticamente de desenhos técnicos todos os parâmetros que afetam o custo: dimensões, roscas, material

Como automatizar a leitura de desenhos técnicos: 6 modelos YOLO em vez de trabalho manual
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Extrair dados de desenhos técnicos manualmente é um trabalho tedioso propenso a erros. Ao encomdar a fabricação de uma peça personalizada, você precisa inserir manualmente aproximadamente 20 parâmetros do desenho em uma calculadora: dimensões, roscas, tolerâncias, rugosidade de superfície, desvios, material, peso. Um time de engenharia montou um pipeline automatizado que pega um desenho em PDF, lê como um humano faria, e extrai tudo o que é necessário em forma estruturada. A saída é JSON para a calculadora.

Arquitetura da Solução

O sistema funciona em três etapas: localização de dados, reconhecimento de texto, síntese de resultado. Um desenho PDF entra, JSON com parâmetros sai. Etapas intermediárias:

  • Normalização de resolução e contraste
  • Extração de projeções (vista frontal, lateral, superior)
  • Separação do contorno da peça de linhas auxiliares
  • Localização de campos de texto e setas de dimensão
  • Reconhecimento de símbolos (rosca, tolerância, rugosidade)
  • Vinculação de setas aos seus valores através de um grafo de conectividade

Componentes do Pipeline

Seis modelos YOLO especializados são usados para visão computacional. Cada um é treinado em um subconjunto de 500+ desenhos reais de produção:

1. Detecção de projeções — encontra vistas frontal, lateral, superior no desenho. 2. Localização de dimensões — destaca todas as setas de dimensão e campos de texto. 3. Reconhecimento de símbolos especiais — lê designações de rosca (M10), graus de tolerância (IT6), rugosidade de superfície (Ra 3.2). 4. Contorno da peça — separa o contorno visível de linhas auxiliares. 5. Linhas auxiliares — encontra linhas de eixo e elementos de construção auxiliares. 6. Setas e indicadores — localiza todos os tipos de setas e valores de texto associados.

OCR customizado é conectado ao YOLO — soluções padrão têm dificuldade em ler anotações manuscritas e símbolos especiais como ∅ (diâmetro) e convenções de designação de roscas. A rede neural foi treinada em um dataset com anotações de especialistas. Lógica de setas é um grafo ponderado: se uma seta começa no ponto A, passa pelo objeto geométrico B e termina perto do texto C, então o valor C pertence ao objeto A. Na prática é mais complexo: setas podem ser tracejadas, em forma de S, múltiplas setas podem apontar para um local, causando ambiguidade.

A Realidade se Coloca no Caminho

Testes em desenhos de produção revelaram problemas que não existem em datasets ideais:

  • Digitalizações sujas — desenhos de 20 anos atrás, digitalizações de máquinas copiadoras, manchas de água, marcas aleatórias de lápis.
  • Liberdades tipográficas — roscas podem ser escritas como "Ø10×1.5", "M10" ou até desenhadas como mola.
  • Anotações coloridas — dimensões destacadas em caneta vermelha, mas OCR frequentemente filtra linhas vermelhas como ruído.
  • Folhas superlotadas — 30+ dimensões em um desenho, setas se cruzam, criando confusão.

A solução veio de augmentação de dados: desenhos sintéticos foram gerados com ruído adicionado, lixo, mudanças de contraste e imitação de digitalizações antigas. Após treinamento no dataset expandido, a qualidade em desenhos sujos melhorou de 68% para 92%.

O Que Isso Significa

Automatizar a leitura de desenhos é um exemplo de como o trabalho humano é substituído por uma combinação de ferramentas publicamente disponíveis (YOLO) + lógica de engenharia (grafo de setas) + ajuste especializado. Para fabricação, é uma aceleração de 15x: em vez de 30 minutos de entrada manual — 2 minutos no piloto automático. Para negócios — entrega mais rápida de orçamentos sem entrada manual de dados.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…