Как автоматизировать чтение чертежей: 6 YOLO-моделей вместо ручной работы
Система из 6 YOLO-моделей и кастомного OCR автоматически вытаскивает из инженерных чертежей все параметры, влияющие на стоимость: габариты, резьбы, материал, кв

Извлечение данных из инженерных чертежей вручную — нудная работа, которая легко переходит в ошибки. При заказе изготовления нетипичной детали нужно вручную ввести в калькулятор примерно 20 параметров из чертежа: размеры, резьбы, квалитеты, шероховатости, допуски, материал, массу. Одна инженерная команда собрала автоматизированный пайплайн, который берёт PDF-чертёж, читает его как человек, и вытаскивает всё нужное в структурированном виде. На выходе — JSON для калькулятора.
Архитектура решения
Система работает в три шага: локализация данных, распознавание текста, синтез результата. На вход приходит PDF-чертёж, на выходе — JSON с параметрами. Промежуточные этапы: Нормализация разрешения и контрастности Выделение проекций (вид спереди, сбоку, сверху) Отделение контура детали от служебных линий Локализация текстовых полей и размерных стрелок Распознавание символов (резьба, квалитет, шероховатость) Связывание стрелок с их значениями через граф связности ## Компоненты пайплайна Для компьютерного зрения использованы шесть специализированных YOLO-моделей.
Каждая обучена на подмножестве 500+ реальных производственных чертежей: 1. Детекция проекций — находит виды спереди, сбоку, сверху на чертеже. 2.
Локализация размеров — выделяет все размерные стрелки и текстовые поля. 3. Распознавание спецсимволов — читает обозначения резьбы (M10), квалитета (IT6), шероховатости (Ra 3.
2). 4. Контур детали — отделяет видимый контур от служебных линий.
5. Служебные линии — находит осевые линии и вспомогательные конструкции. 6.
Стрелки и указатели — локализует все виды стрелок и связанные с ними текстовые значения. К YOLO подключен кастомный OCR — стандартные решения криво читают рукописные пометки и спецсимволы вроде ∅ (диаметр) и условные обозначения резьб. Нейросеть обучили на выборке с аннотациями специалистов.
Стрелочная логика — это взвешенный граф: если стрелка начинается в точке A, проходит сквозь геометрический объект B и заканчивается возле текста C, то значение C относится к объекту A. На практике это сложнее: стрелки бывают пунктирными, S-образными, несколько стрелок может указывать на одно место, возникает неоднозначность.
Реальность встаёт на пути
При тестировании на боевых чертежах выявились проблемы, которых нет в идеальных датасетах: Грязные отсканы — чертежи 20-летней давности, сканы через копировальный аппарат, водяные пятна, случайные отметки карандашом. Полиграфические вольности — резьба может быть записана как «Ø10×1.5», «M10» или даже нарисована пружинкой. Цветные аннотации — размер выделяют красной ручкой, но красные линии OCR часто фильтрует как шум. Переполненные листы — на одном чертеже 30+ размеров, стрелки пересекаются, возникает путаница. Решение дало data augmentation: генерировали синтетические чертежи с добавленным шумом, мусором, изменением контрастности, имитацией старых отсканов. После обучения на расширенном датасете качество на грязных чертежах поднялось с 68% до 92%.
Что это значит
Автоматизация чтения чертежей — пример того, как человеческий труд заменяется на combo из общедоступных инструментов (YOLO) + инженерной логики (граф стрелок) + специализированной настройки. Для производства это ускорение в 15 раз: вместо 30 минут ручного ввода — 2 минуты в автопилоте. Для бизнеса — быстрее давать коммерческие предложения без ручного ввода данных.