Taalas desafia as GPUs: lógica fixa em vez de flexibilidade para 17.000 tokens por segundo
A startup de Toronto Taalas desenvolve chips de AI especializados de lógica fixa (hardwired), que substituem GPUs programáveis em tarefas de inferência. A…
Processado por IA de MarkTechPost; editado por Hamidun News
Toda a indústria de inteligência artificial dos últimos dez anos foi construída em um axioma tácito: o silício deve ser flexível. Modelos mudam a cada semana, arquiteturas evoluem a cada trimestre, e apenas GPUs programáveis conseguem acompanhar essa corrida. A startup de Toronto Taalas acredita que essa lógica levou a indústria a um beco sem saída — e propõe uma alternativa radical: chips com lógica embarcada que não fazem nada além de inferência, mas a fazem a 17 mil tokens por segundo.
Para compreender a escala dessa afirmação, vale a pena relembrar o contexto. GPUs modernas — desde a NVIDIA H100 até o mais recente Blackwell — são essencialmente supercomputadores em um chip, capazes de executar cálculos arbitrários. Sua arquitetura herda décadas de desenvolvimento de processadores gráficos: milhares de núcleos programáveis, hierarquias de memória complexas, barramentos de dados flexíveis. Essa universalidade permite executar no mesmo hardware tanto treinamento de modelos gigantes quanto inferência, além de simulações científicas. Mas a universalidade tem um custo — em consumo de energia, latência e despesa. Cada ciclo de clock gasto decodificando instruções e gerenciando fluxos de dados é energia e tempo que não vão para a multiplicação de matrizes propriamente dita.
Taalas ataca precisamente esse ponto. A empresa desenvolve chips nos quais os caminhos computacionais estão embarcados diretamente no silício — a chamada lógica embarcada. Isso significa que o chip não interpreta um programa em tempo real, mas incorpora fisicamente operações específicas da arquitetura transformer: multiplicações de matrizes, funções de atenção, normalização. Essencialmente, em vez de um processador universal, você obtém um circuito eletrônico que faz exatamente uma coisa — mas a faz com mínimo de sobrecarga.
A abordagem não é nova em princípio. Chips ASIC (application-specific integrated circuits) há muito são usados em mineração de criptomoedas, telecomunicações e processamento de vídeo. O Google apresentou TPUs — processadores tensoriais — em 2016, que também são especializados em cálculos de redes neurais, embora mantenham certo grau de programabilidade. Mas Taalas, ao que parece, vai além, maximizando a especialização para desempenho máximo por token.
O número de 17 mil tokens por segundo merece atenção especial. Para comparação: a inferência típica de um grande modelo de linguagem em uma única GPU de classe H100 produz entre centenas e alguns milhares de tokens por segundo, dependendo do tamanho do modelo e do batch. Se Taalas realmente alcança a velocidade anunciada com qualidade e tamanho de modelo comparáveis, isso poderia significar redução drástica nos custos de inferência — o principal item de despesa para empresas que implantam serviços de IA em produção.
É o custo de inferência, não de treinamento, que determina a economia da maioria dos produtos de IA hoje: cada consulta ao ChatGPT, cada chamada do Copilot, cada geração de imagem — esses são dólares gastos em tempo de GPU.
Contudo, a abordagem carrega um risco óbvio e sério. Lógica embarcada significa vinculação rígida a uma arquitetura de modelo específica. Se a indústria amanhã migrar de transformers para algo fundamentalmente diferente — digamos, arquiteturas baseadas em modelos de espaço de estado ou abordagens híbridas — os chips Taalas correm o risco de se tornarem pesos de papel caros. Esse é o dilema clássico da especialização: você ganha em eficiência mas perde em adaptabilidade. Google pode atualizar o software de seus TPUs, NVIDIA lança novos drivers e bibliotecas CUDA — mas Taalas precisará projetar um novo chip.
Dito isto, a startup tem um contra-argumento forte. A arquitetura Transformer domina há oito anos e não mostra sinais de sair em breve. Operações básicas — multiplicações de matrizes, mecanismos de atenção — permanecem fundamentalmente idênticas de GPT-2 aos modelos mais recentes. Além disso, a tendência de "inferência ubíqua" (ubiquitous inference), que Taalas defende como seu lema, sugere que computação de IA deve se tornar tão barata e acessível quanto eletricidade. E para isso, você precisa exatamente de chips especializados e eficientes em energia, não de GPUs universais caras.
Há também contexto de mercado. A escassez de GPUs e a posição monopolista da NVIDIA criaram forte demanda por alternativas. Os principais provedores de nuvem — Amazon, Google, Microsoft — já estão desenvolvendo seus próprios chips. Startups como Groq, Cerebras e SambaNova oferecem arquiteturas não convencionais. Taalas se encaixa nessa tendência mas ocupa a posição mais radical no espectro flexibilidade-especialização.
A principal questão que Taalas precisa responder não é técnica, mas econômica. Conseguirão fabricar e atualizar seus chips rápido o bastante para acompanhar a evolução dos modelos? Conseguirão convencer os clientes de que apostar em lógica embarcada é justificável? Se sim — podemos ver o começo de uma nova era na qual inferência de IA deixa de ser luxo e se torna norma de infraestrutura. Se não — será mais uma lição sobre por que a indústria se apega tanto à flexibilidade.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.