TNW→ original

Google discute de puces IA pour l'inférence avec Marvell et réduit sa dépendance à Broadcom

Google pourrait faire participer Marvell au développement de deux nouvelles puces IA — une unité de traitement de mémoire et un TPU d'inférence. Cela…

Traité par IA depuis TNW ; édité par Hamidun News
Google discute de puces IA pour l'inférence avec Marvell et réduit sa dépendance à Broadcom
Source : TNW. Collage: Hamidun News.
◐ Écouter l'article

Google franchit la prochaine étape de sa stratégie de puces : l'entreprise discute avec Marvell de la création de deux accélérateurs d'IA spécialisés pour élargir sa chaîne de développement au-delà de Broadcom. Si les négociations aboutissent à un accord, Google gagnera un autre partenaire de silicium personnalisé—et renforcera son pari sur l'inférence moins chère et de masse, pas seulement l'entraînement de grands modèles. Selon les informations disponibles, le sujet des négociations porte sur deux nouvelles puces.

La première est une unité de traitement de la mémoire, un composant conçu spécifiquement pour les opérations de mémoire et le transfert de données dans les systèmes d'IA. La seconde est un TPU optimisé précisément pour l'inférence—quand un modèle est déjà entraîné et doit répondre rapidement aux demandes des utilisateurs.

Pour Google, c'est un domaine sensible : plus les demandes passent par Gemini, la recherche, la publicité et les services cloud, plus le coût de chaque réponse et la consommation énergétique des centres de données pèsent sur l'entreprise. Actuellement, Google ne construit pas son écosystème de silicium personnalisé seul. Broadcom reste depuis longtemps un partenaire clé, et MediaTek figure également dans la chaîne de développement. L'émergence de Marvell en tant que potentiel troisième partenaire signifie bien plus que simplement élargir la liste des sous-traitants.

C'est un moyen de répartir les risques, de ne pas dépendre d'un seul fournisseur de composants critiques et de tester simultanément différentes approches d'ingénierie pour différentes classes de charges de travail—de l'entraînement à l'inférence dans les services de production. Il est important de noter que pour l'instant, il s'agit encore de négociations : aucun contrat signé, selon les informations disponibles. Mais le fait même de telles discussions montre où se dirige le marché.

Sur fond de boom de l'IA générative, les entreprises conçoivent de plus en plus leurs propres puces car les GPU universels restent coûteux, rares et pas toujours optimaux pour une tâche spécifique. L'inférence est une cible particulièrement attrayante pour la personnalisation : c'est là que les produits destinés aux utilisateurs se déploient finalement à grande échelle, où la latence, le coût des demandes et les performances prévisibles importent.

Un intérêt particulier se porte sur l'unité de traitement de la mémoire. Dans l'infrastructure d'IA, le goulot d'étranglement n'est souvent pas la puissance de calcul brute, mais la vitesse à laquelle les données atteignent l'accélérateur. Plus un système fonctionne efficacement avec la mémoire, moins les blocs de calcul restent inactifs et mieux on peut utiliser le matériel déjà installé. De telles solutions peuvent être tout aussi importantes que les TPU eux-mêmes : elles améliorent l'équilibre global du système et réduisent les frais généraux de déplacement de données.

Pour Google, c'est une étape particulièrement logique. L'entreprise développe sa gamme de TPU depuis de nombreuses années et sait comment intégrer étroitement le matériel avec ses logiciels, ses centres de données et son infrastructure cloud. Les nouveaux composants spécialisés peuvent l'aider à ajuster la pile pour différents scénarios : séparément pour l'entraînement, séparément pour servir un nombre énorme de demandes, séparément pour les goulots d'étranglement liés à la mémoire. Cette approche produit généralement non seulement des gains de performance mais aussi un contrôle plus strict sur les coûts, les délais de livraison et la dépendance vis-à-vis des écosystèmes externes.

Un autre aspect de cette histoire est la position de négociation de Google. Quand une entreprise a plusieurs partenaires de conception, il lui est plus facile de distribuer les projets par spécialisation et de ne pas lier l'intégralité de sa feuille de route au rythme d'un seul contractant. Dans une industrie où le lancement de la prochaine génération de matériel d'IA affecte directement les marges du cloud et la vitesse de lancement des produits, cette flexibilité devient un atout stratégique.

Même sans contrat final, le simple dialogue avec Marvell montre que Google prépare les alternatives à l'avance et élargit sa marge de manœuvre. En termes pratiques, cette nouvelle est importante non pas parce que Google a trouvé un autre fabricant de puces, mais parce que les plus grandes entreprises d'IA se dirigent vers une architecture matérielle plus granulaire et spécialisée. Le gagnant ne sera pas celui qui a simplement plus d'accélérateurs, mais celui qui distribue le mieux les rôles entre eux.

Si l'accord avec Marvell se concrétise, ce sera un autre signal : la prochaine phase de la course à l'IA ne concerne pas seulement les modèles, mais l'économie de l'inférence, où chaque watt et chaque milliseconde de gain deviennent un avantage concurrentiel.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…