Cómo automatizar la lectura de planos técnicos: 6 modelos YOLO en lugar del trabajo manual
Un sistema de 6 modelos YOLO y OCR personalizado extrae automáticamente de los planos técnicos todos los parámetros que afectan al costo: dimensiones, roscas, m

Extraer datos de planos técnicos manualmente es un trabajo tedioso propenso a errores. Al encargar la fabricación de una pieza personalizada, necesitas introducir manualmente aproximadamente 20 parámetros del plano en una calculadora: dimensiones, roscas, tolerancias, rugosidad superficial, desviaciones, material, peso. Un equipo de ingeniería montó un pipeline automatizado que toma un plano en PDF, lo lee como lo haría un humano, y extrae todo lo necesario en forma estructurada. La salida es JSON para la calculadora.
Arquitectura de la Solución
El sistema funciona en tres pasos: localización de datos, reconocimiento de texto, síntesis de resultados. Un plano PDF entra, JSON con parámetros sale. Etapas intermedias:
- Normalización de resolución y contraste
- Extracción de proyecciones (vista frontal, lateral, superior)
- Separación del contorno de la pieza de líneas auxiliares
- Localización de campos de texto y flechas de dimensión
- Reconocimiento de símbolos (rosca, tolerancia, rugosidad)
- Vinculación de flechas a sus valores a través de un grafo de conectividad
Componentes del Pipeline
Se utilizan seis modelos YOLO especializados para visión por computadora. Cada uno se entrena en un subconjunto de 500+ planos reales de producción:
1. Detección de proyecciones — encuentra vistas frontal, lateral, superior en el plano. 2. Localización de dimensiones — destaca todas las flechas de dimensión y campos de texto. 3. Reconocimiento de símbolos especiales — lee designaciones de rosca (M10), grados de tolerancia (IT6), rugosidad superficial (Ra 3.2). 4. Contorno de la pieza — separa el contorno visible de líneas auxiliares. 5. Líneas auxiliares — encuentra líneas de eje y elementos de construcción auxiliares. 6. Flechas e indicadores — localiza todos los tipos de flechas y valores de texto asociados.
OCR personalizado se conecta a YOLO — las soluciones estándar tienen dificultades para leer anotaciones manuscritas y símbolos especiales como ∅ (diámetro) y convenciones de designación de roscas. La red neuronal se entrenó en un conjunto de datos con anotaciones de especialistas. La lógica de flechas es un grafo ponderado: si una flecha comienza en el punto A, pasa a través del objeto geométrico B y termina cerca del texto C, entonces el valor C pertenece al objeto A. En la práctica es más complejo: las flechas pueden ser punteadas, en forma de S, múltiples flechas pueden apuntar a un lugar, causando ambigüedad.
La Realidad se Interpone
Las pruebas en planos de producción revelaron problemas que no existen en conjuntos de datos ideales:
- Escaneos sucios — planos de hace 20 años, escaneos de máquinas fotocopiadoras, manchas de agua, marcas aleatorias de lápiz.
- Licencias tipográficas — las roscas pueden escribirse como "Ø10×1.5", "M10" o incluso dibujarse como un resorte.
- Anotaciones coloreadas — dimensiones resaltadas con bolígrafo rojo, pero OCR a menudo filtra líneas rojas como ruido.
- Hojas abarrotadas — 30+ dimensiones en un plano, las flechas se cruzan, creando confusión.
La solución vino de la ampliación de datos: se generaron planos sintéticos con ruido agregado, basura, cambios de contraste e imitación de escaneos antiguos. Después del entrenamiento en el conjunto de datos expandido, la calidad en planos sucios mejoró del 68% al 92%.
Lo Que Esto Significa
Automatizar la lectura de planos es un ejemplo de cómo el trabajo humano se reemplaza con una combinación de herramientas públicamente disponibles (YOLO) + lógica de ingeniería (grafo de flechas) + ajuste especializado. Para la fabricación, es una aceleración de 15x: en lugar de 30 minutos de entrada manual — 2 minutos en piloto automático. Para el negocio — entrega más rápida de presupuestos sin entrada manual de datos.