Taalas desafía a las GPU: lógica cableada en lugar de flexibilidad para 17.000 tokens por segundo
La startup de Toronto Taalas desarrolla chips de AI especializados de lógica cableada (hardwired) que sustituyen a las GPU programables en tareas de…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Toda la industria de la inteligencia artificial durante la última década se ha construido sobre un axioma tácito: el silicio debe ser flexible. Los modelos cambian cada semana, las arquitecturas evolucionan cada trimestre, y solo las GPU programables pueden mantener el ritmo de esta carrera. La startup de Toronto Taalas cree que esta lógica ha llevado a la industria a un callejón sin salida — y propone una alternativa radical: chips con lógica embarcada que no pueden hacer nada más que inferencia, pero la hacen a 17.000 tokens por segundo.
Para comprender la magnitud de esta afirmación, vale la pena recordar el contexto. Las GPU modernas — desde NVIDIA H100 hasta el último Blackwell — son esencialmente supercomputadoras en un chip, capaces de ejecutar cálculos arbitrarios. Su arquitectura hereda décadas de desarrollo de procesadores gráficos: miles de núcleos programables, jerarquías de memoria complejas, buses de datos flexibles.
Esta universalidad permite ejecutar en el mismo hardware tanto el entrenamiento de modelos gigantes como la inferencia, además de simulaciones científicas. Pero la universalidad tiene un costo — en consumo de energía, latencia y gasto. Cada ciclo de reloj gastado en decodificar instrucciones y gestionar flujos de datos es energía y tiempo que no se dedica a la multiplicación de matrices propiamente dicha.
Taalas ataca precisamente este punto. La empresa desarrolla chips donde los caminos computacionales están embarcados directamente en el silicio — la llamada lógica embarcada. Esto significa que el chip no interpreta un programa sobre la marcha, sino que incorpora físicamente operaciones específicas de la arquitectura transformer: multiplicaciones de matrices, funciones de atención, normalización. Esencialmente, en lugar de un procesador universal, obtienes un circuito electrónico que hace exactamente una cosa — pero la hace con gastos generales mínimos.
El enfoque no es nuevo en principio. Los chips ASIC (application-specific integrated circuits) llevan mucho tiempo usándose en minería de criptomonedas, telecomunicaciones y procesamiento de vídeo. Google presentó TPUs — procesadores tensoriales — en 2016, que también se especializan en cálculos de redes neuronales, aunque conservan cierto grado de programabilidad. Pero Taalas, al parecer, va más allá, maximizando la especialización para el máximo rendimiento por token.
La cifra de 17.000 tokens por segundo merece un tratamiento especial. Para comparar: la inferencia típica de un gran modelo de lenguaje en una sola GPU de clase H100 produce entre cientos y algunos miles de tokens por segundo, dependiendo del tamaño del modelo y del lote.
Si Taalas realmente logra la velocidad anunciada con calidad comparable y tamaño de modelo comparable, esto podría significar una reducción drástica en los costos de inferencia — el principal rubro de gasto para las empresas que despliegan servicios de IA en producción. Es el costo de inferencia, no el de entrenamiento, lo que determina la economía de la mayoría de productos de IA hoy: cada consulta a ChatGPT, cada llamada de Copilot, cada generación de imagen — estos son dólares gastados en tiempo de GPU.
Sin embargo, el enfoque conlleva un riesgo obvio y grave. La lógica embarcada significa vinculación rígida a una arquitectura de modelo específica. Si la industria mañana se pasa de transformers a algo fundamentalmente diferente — digamos, arquitecturas basadas en modelos de espacio de estado o enfoques híbridos — los chips de Taalas corren el riesgo de convertirse en costosos pisapapeles. Este es el dilema clásico de la especialización: ganas en eficiencia pero pierdes en adaptabilidad. Google puede actualizar el software de sus TPU, NVIDIA lanza nuevos drivers y librerías CUDA — pero Taalas tendrá que diseñar un nuevo chip.
Dicho esto, la startup tiene un contraargumento fuerte. La arquitectura Transformer domina desde hace ocho años y no muestra signos de partida próxima. Las operaciones básicas — multiplicaciones de matrices, mecanismos de atención — siguen siendo fundamentalmente idénticas desde GPT-2 hasta los últimos modelos. Además, la tendencia hacia la "inferencia ubicua" (ubiquitous inference), que Taalas defiende como su lema, sugiere que el cálculo de IA debe volverse tan barato y accesible como la electricidad. Y para eso, necesitas exactamente chips especializados y eficientes en energía, no GPU universales costosas.
También hay contexto de mercado. La escasez de GPU y la posición monopolista de NVIDIA han creado una fuerte demanda de alternativas. Los grandes proveedores de nube — Amazon, Google, Microsoft — ya están desarrollando sus propios chips. Startups como Groq, Cerebras y SambaNova ofrecen arquitecturas no convencionales. Taalas encaja en esta tendencia pero ocupa la posición más radical en el espectro flexibilidad-especialización.
La pregunta principal que Taalas debe responder no es técnica sino económica. ¿Podrán fabricar y actualizar sus chips lo suficientemente rápido para mantenerse al día con la evolución de los modelos? ¿Podrán convencer a los clientes de que apostar por lógica embarcada está justificado? Si es así — podríamos ver el comienzo de una nueva era en la que la inferencia de IA deja de ser un lujo y se convierte en una norma de infraestructura. Si no — será otra lección sobre por qué la industria se aferra tanto a la flexibilidad.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.