Taalas challenges GPUs: hardwired logic over flexibility for 17,000 tokens per second
Toronto startup Taalas is developing specialized hardwired AI chips that replace programmable GPUs for inference workloads. The company claims it reaches 17,000

Вся индустрия искусственного интеллекта последние десять лет строилась на одной негласной аксиоме: кремний должен быть гибким. Модели меняются каждую неделю, архитектуры эволюционируют каждый квартал, и только программируемые GPU способны угнаться за этой гонкой. Торонтский стартап Taalas считает, что именно эта логика завела отрасль в тупик — и предлагает радикальную альтернативу: чипы с жёсткой логикой, которые не умеют ничего, кроме инференса, но делают это со скоростью 17 000 токенов в секунду.
Чтобы понять масштаб заявления, стоит вспомнить контекст. Современные GPU — от NVIDIA H100 до последних Blackwell — это по сути суперкомпьютеры на чипе, способные выполнять произвольные вычисления. Их архитектура наследует десятилетия развития графических процессоров: тысячи программируемых ядер, сложные иерархии памяти, гибкие шины данных. Эта универсальность позволяет запускать на одном и том же железе и обучение гигантских моделей, и инференс, и научные симуляции. Но за универсальность приходится платить — энергопотреблением, латентностью и стоимостью. Каждый такт, потраченный на декодирование инструкций и управление потоками данных, — это энергия и время, которые не идут на собственно умножение матриц.
Taalas атакует именно эту точку. Компания разрабатывает чипы, в которых вычислительные пути зашиты непосредственно в кремний — так называемая hardwired-логика. Это означает, что чип не интерпретирует программу на лету, а физически воплощает конкретные операции трансформерной архитектуры: матричные умножения, функции внимания, нормализацию. По сути, вместо универсального процессора вы получаете электронную схему, которая делает ровно одну вещь — но делает её с минимальными накладными расходами.
Подход не нов в принципе. ASIC-чипы (application-specific integrated circuits) давно используются в криптовалютном майнинге, телекоммуникациях и обработке видео. Google ещё в 2016 году представила TPU — тензорные процессоры, которые тоже специализированы под нейросетевые вычисления, хотя и сохраняют определённую степень программируемости. Но Taalas, судя по всему, идёт дальше, максимально ужесточая специализацию ради предельной производительности на токен.
Цифра в 17 000 токенов в секунду заслуживает отдельного разговора. Для сравнения: типичный инференс крупной языковой модели на одном GPU уровня H100 выдаёт от нескольких сотен до нескольких тысяч токенов в секунду в зависимости от размера модели и батча. Если Taalas действительно достигает заявленной скорости при сопоставимом качестве и размере модели, это может означать кратное снижение стоимости инференса — главной статьи расходов для компаний, развёртывающих AI-сервисы в продакшене. Именно стоимость инференса, а не обучения, сегодня определяет экономику большинства AI-продуктов: каждый запрос к ChatGPT, каждый вызов Copilot, каждая генерация изображения — это деньги, потраченные на GPU-время.
Однако у подхода есть очевидный и серьёзный риск. Жёсткая логика означает жёсткую привязку к конкретной архитектуре моделей. Если индустрия завтра перейдёт от трансформеров к чему-то принципиально иному — скажем, к архитектурам на основе state-space моделей или гибридным подходам — чипы Taalas рискуют превратиться в дорогие пресс-папье. Это классическая дилемма специализации: вы выигрываете в эффективности, но проигрываете в адаптивности. Google может обновить программное обеспечение своих TPU, NVIDIA выпускает новые драйверы и CUDA-библиотеки — а Taalas придётся проектировать новый чип.
Впрочем, у стартапа есть сильный контраргумент. Трансформерная архитектура доминирует уже восемь лет и не демонстрирует признаков скорого ухода. Базовые операции — матричные умножения, механизм внимания — остаются фундаментально одинаковыми от GPT-2 до последних моделей. Более того, тренд на «повсеместный инференс» (ubiquitous inference), который Taalas выносит в свой слоган, предполагает, что AI-вычисления должны стать такими же дешёвыми и доступными, как электричество. А для этого нужны именно специализированные, энергоэффективные чипы, а не дорогие универсальные GPU.
Есть и рыночный контекст. Дефицит GPU и монопольное положение NVIDIA создали мощный запрос на альтернативы. Крупные облачные провайдеры — Amazon, Google, Microsoft — уже разрабатывают собственные чипы. Стартапы вроде Groq, Cerebras и SambaNova предлагают нестандартные архитектуры. Taalas вписывается в этот тренд, но занимает наиболее радикальную позицию на спектре «гибкость — специализация».
Главный вопрос, на который Taalas предстоит ответить, — не технический, а экономический. Смогут ли они производить и обновлять свои чипы достаточно быстро, чтобы не отстать от эволюции моделей? Смогут ли убедить клиентов, что ставка на жёсткую логику оправдана? Если да — мы можем увидеть начало новой эпохи, в которой AI-инференс перестанет быть роскошью и станет инфраструктурной нормой. Если нет — это будет ещё один урок о том, почему индустрия так держится за гибкость.