MarkTechPost→ оригинал

HPC-Ops from Tencent: Chinese Software Squeezes Maximum from American Hardware

Пока индустрия спорит о качестве ответов LLM, Tencent решила навести порядок в том, как эти ответы генерируются. Библиотека HPC-Ops — это набор инструментов для

HPC-Ops from Tencent: Chinese Software Squeezes Maximum from American Hardware
Источник: MarkTechPost. Коллаж: Hamidun News.

Пока весь мир обсуждает, чья модель умнее, инженеры из Tencent решили заняться приземленной, но куда более важной проблемой — как перестать сжигать бюджеты на неэффективные вычисления. Все привыкли, что нейросети пишутся на Python, но когда дело доходит до реальной нагрузки в продакшене, интерпретируемые языки становятся обузой. Нужен прямой доступ к «железу», и именно это дает новая библиотека HPC-Ops. Это не просто очередной набор скриптов, а полноценная библиотека операторов для высокопроизводительного инференса, которую Tencent Hunyuan годами обкатывала на своих внутренних сервисах.

Суть проблемы проста: современные архитектуры вроде Mixture of Experts (MoE) или трансформеры с огромным контекстом крайне требовательны к пропускной способности памяти и вычислительной мощности GPU. Стандартные библиотеки от NVIDIA не всегда идеально ложатся на специфические нужды конкретных архитектур. Tencent пошла по пути кастомизации и переписала ключевые CUDA-ядра для таких операций, как Attention и Grouped GEMM. Это те самые кирпичики, из которых строится любая современная языковая модель. Если эти кирпичики кривые, всё здание будет шататься, а счета за облака — расти.

Особое внимание в HPC-Ops уделили Fused MoE — технике, которая позволяет объединять несколько этапов вычислений в один проход по памяти. В архитектурах «смеси экспертов» это критически важно, так как постоянная пересылка данных между разными частями видеокарты создает огромные задержки. Оптимизация этих процессов позволяет моделям отвечать быстрее, что напрямую влияет на пользовательский опыт. Никто не хочет ждать пять секунд, пока чат-бот сообразит, как закончить предложение.

Почему Tencent решила открыть код именно сейчас? Ответ кроется в глобальном контексте. В условиях санкций и дефицита передовых чипов вроде H100, китайские компании вынуждены становиться чемпионами по эффективности. Когда у тебя нет бесконечного запаса видеокарт, ты начинаешь полировать софт до блеска. Выпуская HPC-Ops в опенсорс, Tencent фактически предлагает рынку стандарт, который может составить конкуренцию решениям от NVIDIA или Meta. Это сильный ход в борьбе за влияние в сообществе разработчиков инфраструктуры.

Для обычного разработчика это означает, что порог входа в создание быстрых и дешевых ИИ-сервисов стал чуть ниже. Библиотека предоставляет компактные API для C и Python, что позволяет интегрировать эти наработки в уже существующие проекты без необходимости переписывать всё с нуля. Это мостик между академическими исследованиями и суровым энтерпрайзом, где важна каждая миллисекунда.

В долгосрочной перспективе такие релизы меняют ландшафт индустрии. Мы переходим от эпохи «просто сделайте, чтобы оно работало» к эпохе «сделайте это максимально эффективно». Tencent явно дает понять, что они не просто потребители технологий, а те, кто диктует правила игры на уровне архитектуры. Теперь вопрос лишь в том, как быстро эти наработки подхватят другие крупные игроки и станет ли HPC-Ops частью стандартного стека для инференса LLM во всем мире.

Главное: Tencent переводит борьбу за рынок ИИ в плоскость эффективности вычислений. Смогут ли западные фреймворки предложить что-то столь же оптимизированное для работы с MoE?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…