MarkTechPost→ original

Taalas défie les GPU : logique câblée plutôt que flexibilité pour 17 000 tokens par seconde

La start-up torontoise Taalas développe des puces AI spécialisées à logique câblée (hardwired), qui remplacent les GPU programmables pour les tâches…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
Taalas défie les GPU : logique câblée plutôt que flexibilité pour 17 000 tokens par seconde
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Toute l'industrie de l'intelligence artificielle au cours de la dernière décennie s'est construite sur un axiome tacite : le silicium doit être flexible. Les modèles changent chaque semaine, les architectures évoluent chaque trimestre, et seules les GPU programmables peuvent suivre cette course. La startup torontoise Taalas croit que cette logique a mené l'industrie dans une impasse — et propose une alternative radicale : des puces avec une logique câblée qui ne peuvent rien faire d'autre que l'inférence, mais la font à 17 000 tokens par seconde.

Pour saisir l'ampleur de cette affirmation, il vaut la peine de rappeler le contexte. Les GPU modernes — de NVIDIA H100 au dernier Blackwell — sont essentiellement des superordinateurs sur une puce, capables d'effectuer des calculs arbitraires. Leur architecture hérite de décennies de développement des processeurs graphiques : des milliers de cœurs programmables, des hiérarchies de mémoire complexes, des bus de données flexibles.

Cette universalité permet d'exécuter sur le même matériel aussi bien l'entraînement de modèles géants que l'inférence, ainsi que des simulations scientifiques. Mais l'universalité a un coût — en consommation d'énergie, en latence et en dépenses. Chaque cycle d'horloge dépensé à décoder les instructions et à gérer les flux de données est de l'énergie et du temps qui ne vont pas vers la multiplication de matrices proprement dite.

Taalas attaque précisément ce point. L'entreprise développe des puces où les chemins de calcul sont câblés directement dans le silicium — ce qu'on appelle la logique câblée. Cela signifie que la puce n'interprète pas un programme à la volée, mais incarne physiquement les opérations spécifiques de l'architecture transformer : multiplications de matrices, fonctions d'attention, normalisation. Essentiellement, au lieu d'un processeur universel, vous obtenez un circuit électronique qui fait exactement une chose — mais la fait avec des surcharges minimales.

L'approche n'est pas nouvelle en principe. Les puces ASIC (application-specific integrated circuits) sont depuis longtemps utilisées dans l'exploitation minière de cryptomonnaies, les télécommunications et le traitement vidéo. Google a présenté les TPU — processeurs tensoriels — en 2016, qui sont également spécialisés dans les calculs de réseaux de neurones, bien qu'ils conservent un certain degré de programmabilité. Mais Taalas, semble-t-il, va plus loin, en maximisant la spécialisation pour une performance maximale par token.

Le chiffre de 17 000 tokens par seconde mérite une attention particulière. Pour comparaison : l'inférence typique d'un grand modèle de langage sur une seule GPU de classe H100 donne entre quelques centaines et quelques milliers de tokens par seconde, selon la taille du modèle et la taille du lot. Si Taalas atteint réellement la vitesse annoncée avec une qualité comparable et une taille de modèle comparable, cela pourrait signifier une réduction drastique des coûts d'inférence — le poste de dépense principal pour les entreprises déployant des services d'IA en production.

C'est le coût d'inférence, non de formation, qui détermine l'économie de la plupart des produits d'IA aujourd'hui : chaque requête à ChatGPT, chaque appel de Copilot, chaque génération d'image — ce sont des dollars dépensés en temps GPU.

Cependant, l'approche comporte un risque évident et grave. La logique câblée signifie une liaison rigide à une architecture de modèle spécifique. Si l'industrie demain passe des transformers à quelque chose de fondamentalement différent — disons, des architectures basées sur des modèles d'espace d'état ou des approches hybrides — les puces Taalas risquent de devenir des presse-papiers coûteux. C'est le dilemme classique de la spécialisation : vous gagnez en efficacité mais perdez en adaptabilité. Google peut mettre à jour les logiciels de ses TPU, NVIDIA publie de nouveaux pilotes et bibliothèques CUDA — mais Taalas devra concevoir une nouvelle puce.

Cela dit, la startup a un contre-argument solide. L'architecture Transformer domine depuis huit ans et ne montre aucun signe de départ imminent. Les opérations de base — multiplications de matrices, mécanismes d'attention — restent fondamentalement identiques de GPT-2 aux derniers modèles. De plus, la tendance vers l'« inférence ubiquitaire » (ubiquitous inference), que Taalas défend comme son mantra, suggère que le calcul d'IA devrait devenir aussi bon marché et accessible que l'électricité. Et pour cela, vous avez besoin exactement de puces spécialisées et efficaces en énergie, pas de GPU universelles coûteuses.

Il y a aussi un contexte de marché. La pénurie de GPU et la position monopoliste de NVIDIA ont créé une forte demande d'alternatives. Les grands fournisseurs de cloud — Amazon, Google, Microsoft — développent déjà leurs propres puces. Les startups comme Groq, Cerebras et SambaNova proposent des architectures non conventionnelles. Taalas s'inscrit dans cette tendance mais occupe la position la plus radicale du spectre flexibilité-spécialisation.

La question principale à laquelle Taalas doit répondre n'est pas technique mais économique. Pourront-ils fabriquer et mettre à jour leurs puces assez rapidement pour suivre l'évolution des modèles ? Pourront-ils convaincre les clients que miser sur la logique câblée est justifié ? Si oui — nous pourrions voir le début d'une nouvelle ère dans laquelle l'inférence d'IA cesse d'être un luxe et devient une norme d'infrastructure. Si non — ce sera une autre leçon sur la raison pour laquelle l'industrie s'accroche tant à la flexibilité.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…