MarkTechPost→ оригинал

Taalas бросает вызов GPU: жёсткая логика вместо гибкости ради 17 000 токенов в секунду

Торонтский стартап Taalas разрабатывает специализированные AI-чипы с жёсткой логикой (hardwired), которые заменяют программируемые GPU для задач инференса. Комп

Taalas бросает вызов GPU: жёсткая логика вместо гибкости ради 17 000 токенов в секунду
Источник: MarkTechPost. Коллаж: Hamidun News.

Вся индустрия искусственного интеллекта последние десять лет строилась на одной негласной аксиоме: кремний должен быть гибким. Модели меняются каждую неделю, архитектуры эволюционируют каждый квартал, и только программируемые GPU способны угнаться за этой гонкой. Торонтский стартап Taalas считает, что именно эта логика завела отрасль в тупик — и предлагает радикальную альтернативу: чипы с жёсткой логикой, которые не умеют ничего, кроме инференса, но делают это со скоростью 17 000 токенов в секунду.

Чтобы понять масштаб заявления, стоит вспомнить контекст. Современные GPU — от NVIDIA H100 до последних Blackwell — это по сути суперкомпьютеры на чипе, способные выполнять произвольные вычисления. Их архитектура наследует десятилетия развития графических процессоров: тысячи программируемых ядер, сложные иерархии памяти, гибкие шины данных. Эта универсальность позволяет запускать на одном и том же железе и обучение гигантских моделей, и инференс, и научные симуляции. Но за универсальность приходится платить — энергопотреблением, латентностью и стоимостью. Каждый такт, потраченный на декодирование инструкций и управление потоками данных, — это энергия и время, которые не идут на собственно умножение матриц.

Taalas атакует именно эту точку. Компания разрабатывает чипы, в которых вычислительные пути зашиты непосредственно в кремний — так называемая hardwired-логика. Это означает, что чип не интерпретирует программу на лету, а физически воплощает конкретные операции трансформерной архитектуры: матричные умножения, функции внимания, нормализацию. По сути, вместо универсального процессора вы получаете электронную схему, которая делает ровно одну вещь — но делает её с минимальными накладными расходами.

Подход не нов в принципе. ASIC-чипы (application-specific integrated circuits) давно используются в криптовалютном майнинге, телекоммуникациях и обработке видео. Google ещё в 2016 году представила TPU — тензорные процессоры, которые тоже специализированы под нейросетевые вычисления, хотя и сохраняют определённую степень программируемости. Но Taalas, судя по всему, идёт дальше, максимально ужесточая специализацию ради предельной производительности на токен.

Цифра в 17 000 токенов в секунду заслуживает отдельного разговора. Для сравнения: типичный инференс крупной языковой модели на одном GPU уровня H100 выдаёт от нескольких сотен до нескольких тысяч токенов в секунду в зависимости от размера модели и батча. Если Taalas действительно достигает заявленной скорости при сопоставимом качестве и размере модели, это может означать кратное снижение стоимости инференса — главной статьи расходов для компаний, развёртывающих AI-сервисы в продакшене. Именно стоимость инференса, а не обучения, сегодня определяет экономику большинства AI-продуктов: каждый запрос к ChatGPT, каждый вызов Copilot, каждая генерация изображения — это деньги, потраченные на GPU-время.

Однако у подхода есть очевидный и серьёзный риск. Жёсткая логика означает жёсткую привязку к конкретной архитектуре моделей. Если индустрия завтра перейдёт от трансформеров к чему-то принципиально иному — скажем, к архитектурам на основе state-space моделей или гибридным подходам — чипы Taalas рискуют превратиться в дорогие пресс-папье. Это классическая дилемма специализации: вы выигрываете в эффективности, но проигрываете в адаптивности. Google может обновить программное обеспечение своих TPU, NVIDIA выпускает новые драйверы и CUDA-библиотеки — а Taalas придётся проектировать новый чип.

Впрочем, у стартапа есть сильный контраргумент. Трансформерная архитектура доминирует уже восемь лет и не демонстрирует признаков скорого ухода. Базовые операции — матричные умножения, механизм внимания — остаются фундаментально одинаковыми от GPT-2 до последних моделей. Более того, тренд на «повсеместный инференс» (ubiquitous inference), который Taalas выносит в свой слоган, предполагает, что AI-вычисления должны стать такими же дешёвыми и доступными, как электричество. А для этого нужны именно специализированные, энергоэффективные чипы, а не дорогие универсальные GPU.

Есть и рыночный контекст. Дефицит GPU и монопольное положение NVIDIA создали мощный запрос на альтернативы. Крупные облачные провайдеры — Amazon, Google, Microsoft — уже разрабатывают собственные чипы. Стартапы вроде Groq, Cerebras и SambaNova предлагают нестандартные архитектуры. Taalas вписывается в этот тренд, но занимает наиболее радикальную позицию на спектре «гибкость — специализация».

Главный вопрос, на который Taalas предстоит ответить, — не технический, а экономический. Смогут ли они производить и обновлять свои чипы достаточно быстро, чтобы не отстать от эволюции моделей? Смогут ли убедить клиентов, что ставка на жёсткую логику оправдана? Если да — мы можем увидеть начало новой эпохи, в которой AI-инференс перестанет быть роскошью и станет инфраструктурной нормой. Если нет — это будет ещё один урок о том, почему индустрия так держится за гибкость.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…