Cómo automatizar la lectura de planos técnicos: 6 modelos YOLO en lugar del trabajo manual

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-17. Время чтения: 3 мин.

Un sistema de 6 modelos YOLO y OCR personalizado extrae automáticamente de los planos técnicos todos los parámetros que afectan al costo: dimensiones, roscas, m

Redacción de Hamidun News

Monitoreo de AI · Habr AI

2026-05-17· 3 min

Cómo automatizar la lectura de planos técnicos: 6 modelos YOLO en lugar del trabajo manual — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Extraer datos de planos técnicos manualmente es un trabajo tedioso propenso a errores. Al encargar la fabricación de una pieza personalizada, necesitas introducir manualmente aproximadamente 20 parámetros del plano en una calculadora: dimensiones, roscas, tolerancias, rugosidad superficial, desviaciones, material, peso. Un equipo de ingeniería montó un pipeline automatizado que toma un plano en PDF, lo lee como lo haría un humano, y extrae todo lo necesario en forma estructurada. La salida es JSON para la calculadora.

Arquitectura de la Solución

El sistema funciona en tres pasos: localización de datos, reconocimiento de texto, síntesis de resultados. Un plano PDF entra, JSON con parámetros sale. Etapas intermedias:

Normalización de resolución y contraste
Extracción de proyecciones (vista frontal, lateral, superior)
Separación del contorno de la pieza de líneas auxiliares
Localización de campos de texto y flechas de dimensión
Reconocimiento de símbolos (rosca, tolerancia, rugosidad)
Vinculación de flechas a sus valores a través de un grafo de conectividad

Componentes del Pipeline

Se utilizan seis modelos YOLO especializados para visión por computadora. Cada uno se entrena en un subconjunto de 500+ planos reales de producción:

1. Detección de proyecciones — encuentra vistas frontal, lateral, superior en el plano. 2. Localización de dimensiones — destaca todas las flechas de dimensión y campos de texto. 3. Reconocimiento de símbolos especiales — lee designaciones de rosca (M10), grados de tolerancia (IT6), rugosidad superficial (Ra 3.2). 4. Contorno de la pieza — separa el contorno visible de líneas auxiliares. 5. Líneas auxiliares — encuentra líneas de eje y elementos de construcción auxiliares. 6. Flechas e indicadores — localiza todos los tipos de flechas y valores de texto asociados.

OCR personalizado se conecta a YOLO — las soluciones estándar tienen dificultades para leer anotaciones manuscritas y símbolos especiales como ∅ (diámetro) y convenciones de designación de roscas. La red neuronal se entrenó en un conjunto de datos con anotaciones de especialistas. La lógica de flechas es un grafo ponderado: si una flecha comienza en el punto A, pasa a través del objeto geométrico B y termina cerca del texto C, entonces el valor C pertenece al objeto A. En la práctica es más complejo: las flechas pueden ser punteadas, en forma de S, múltiples flechas pueden apuntar a un lugar, causando ambigüedad.

La Realidad se Interpone

Las pruebas en planos de producción revelaron problemas que no existen en conjuntos de datos ideales:

Escaneos sucios — planos de hace 20 años, escaneos de máquinas fotocopiadoras, manchas de agua, marcas aleatorias de lápiz.
Licencias tipográficas — las roscas pueden escribirse como "Ø10×1.5", "M10" o incluso dibujarse como un resorte.
Anotaciones coloreadas — dimensiones resaltadas con bolígrafo rojo, pero OCR a menudo filtra líneas rojas como ruido.
Hojas abarrotadas — 30+ dimensiones en un plano, las flechas se cruzan, creando confusión.

La solución vino de la ampliación de datos: se generaron planos sintéticos con ruido agregado, basura, cambios de contraste e imitación de escaneos antiguos. Después del entrenamiento en el conjunto de datos expandido, la calidad en planos sucios mejoró del 68% al 92%.

Lo Que Esto Significa

Automatizar la lectura de planos es un ejemplo de cómo el trabajo humano se reemplaza con una combinación de herramientas públicamente disponibles (YOLO) + lógica de ingeniería (grafo de flechas) + ajuste especializado. Para la fabricación, es una aceleración de 15x: en lugar de 30 minutos de entrada manual — 2 minutos en piloto automático. Para el negocio — entrega más rápida de presupuestos sin entrada manual de datos.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com