36Kr (36氪)→ оригинал

MinerU адаптировали для работы на 10 моделях китайских ИИ-чипов

Команда OpenDataLab из Шанхайской лаборатории ИИ объявила о завершении глубокой адаптации инструмента MinerU для работы на более чем 10 отечественных вычислител

MinerU адаптировали для работы на 10 моделях китайских ИИ-чипов
Источник: 36Kr (36氪). Коллаж: Hamidun News.

# MinerU адаптировали для работы на 10 моделях китайских ИИ-чипов: почему это критично для независимости технологической цепочки

Китайские разработчики искусственного интеллекта получили долгожданный инструмент для преодоления зависимости от западного оборудования. Команда OpenDataLab из Шанхайской лаборатории ИИ в сотрудничестве с компаниями DeepLink и несколькими производителями отечественных чипов объявила о завершении адаптации MinerU — высокоточного парсера документов — для работы более чем на 10 различных вычислительных платформах местного производства. В их числе архитектуры Ascend, T-Head и Metax. Эта работа подчеркивает масштабное стремление региона снизить технологическую зависимость и построить собственный инновационный экосистем.

MinerU — не просто ещё один инструмент обработки текста. Это специализированная система, которая преобразует сложные PDF-файлы, веб-страницы, математические формулы и запутанные таблицы в структурированные данные, которые большие языковые модели могут нормально обрабатывать. Точность преобразования достигает 99%, что критически важно, поскольку качество обучающей выборки напрямую влияет на способности итоговой модели. По сути, MinerU решает проблему, которая долгое время была узким местом в подготовке данных для ИИ-систем: как извлечь смысл из миллионов неструктурированных документов, которые хранятся в корпоративных архивах и государственных реестрах.

Проблема существует не только в теории. Когда компании и государственные учреждения пытаются оцифровать свои архивы или подготовить датасеты для обучения моделей, они сталкиваются с лавиной PDF-файлов, отсканированных документов и таблиц, которые нужно преобразовать в машиночитаемый формат. Делать это вручную невозможно, а существующие решения часто теряют контекст, искажают формулы или неправильно интерпретируют визуальные элементы. MinerU решает эту задачу с точностью, близкой к идеальной, что позволяет организациям экономить месяцы работы и человеческих ресурсов.

Но в чём подлинная значимость новости? Адаптация MinerU для 10+ отечественных чип-платформ означает, что китайские разработчики теперь могут строить полный цикл производства ИИ без обращения к американским и европейским комплектующим. Это касается всех этапов: от сбора и подготовки данных до тренировки моделей. Когда инфраструктура работает на местных чипах — будь то Ascend от Huawei или T-Head от Alibaba — вся цепочка создания стоимости остаётся в стране.

Геополитический контекст здесь неизбежен. Напряжённые отношения между Западом и Китаем привели к наложению санкций на экспорт передовых полупроводников, что вынудило регион инвестировать в собственные разработки. OpenDataLab выбрал именно этот момент для завершения адаптации MinerU, что сигнализирует о том, что локальная технологическая база достаточно развита для запуска сложных инженерных проектов. Это не просто технический успех — это демонстрация состояния местной промышленности ИИ.

Для пользователей глобального рынка это означает появление альтернативного источника данных и инструментов для обработки документов. Для китайских компаний и государственных органов это открывает возможность масштабировать свои ИИ-проекты без ограничений по оборудованию. И хотя адаптация не меняет саму технологию, она меняет эконмику её применения: теперь работать с MinerU можно дешевле и без волнений о влиянии санкций на цепочку снабжения.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…