Alphabet discute avec Marvell de deux nouvelles puces AI pour accélérer l'inférence dans les services Google
Alphabet est en discussion avec Marvell pour développer deux puces AI destinées à l'inférence. La première doit accélérer le transfert de données grâce à un…
Traité par IA depuis 3DNews AI ; édité par Hamidun News
Alphabet discute avec Marvell du développement de deux puces d'IA spécialisées pour l'inférence — l'étape où un modèle déjà entraîné traite les demandes réelles des utilisateurs. Si le projet aboutit, Google aura un matériel conçu non pour les records de laboratoire, mais pour des réponses rapides et massives dans les services interactifs.
Quelles puces sont en discussion
Au cœur de la discussion se trouvent deux composants différents. Le premier est un module mémoire qui doit accélérer le transfert de données au sein du système d'IA. Pour l'inférence, c'est critique : même un accélérateur puissant perd de sa valeur si le modèle se heurte aux limites de bande passante de la mémoire, aux délais d'échange de données et à la livraison lente d'informations. Dans les grands modèles de langage, ces goulets d'étranglement déterminent souvent la rapidité et le coût avec lesquels le système peut servir le flux quotidien de demandes des utilisateurs.
Le deuxième composant est une version mise à jour de TPU, les processeurs tensoriels propriétaires de Google, orientés vers les applications interactives. Il s'agit de scénarios où l'utilisateur s'attend à une réponse immédiate : recherche, assistants d'IA, génération de texte, suggestions dans l'interface. Ce choix démontre un changement de priorités : la valeur est de plus en plus créée non pas au moment de l'entraînement du modèle, mais au moment de son exécution continue sur des millions de brèves requêtes, où comptent la latence stable, la prévisibilité et le coût par réponse.
Pourquoi Alphabet a besoin de Marvell
Pour Alphabet, un partenariat avec Marvell semble pragmatique. Marvell est forte dans l'infrastructure des data centers et les microchips spécialisés, tandis que Google développe sa propre ligne de TPU depuis de nombreuses années. Au lieu de tout faire entièrement en interne, Alphabet peut partager la responsabilité : conserver le contrôle sur l'architecture de l'accélérateur et faire appel à un partenaire pour les parties du système où la mémoire, les interconnexions, l'emballage et l'échange rapide de données entre composants sont particulièrement importants.
L'accord a aussi une logique économique. L'inférence devient rapidement l'une des couches les plus coûteuses de l'infrastructure d'IA, car c'est précisément elle qui fonctionne avec un trafic utilisateur constant. Plus le matériel est précisément adapté à un type spécifique de charge, plus il est facile de mettre à l'échelle le service sans augmentation explosive des coûts. Pour Google, c'est une occasion de réduire le coût par réponse et de mieux contrôler sa propre pile technologique ; pour Marvell, c'est un moyen de renforcer sa position sur le marché surchauffé des accélérateurs d'IA.
- Un module mémoire séparé peut réduire les goulets d'étranglement lors du travail avec de grands modèles
- Un TPU mis à jour est mieux adapté pour les dialogues et autres scénarios interactifs
- Les puces spécialisées offrent généralement plus d'efficacité par watt et par dollar
- Pour Google, c'est un moyen de renforcer le contrôle de sa propre infrastructure d'IA
- Pour Marvell, c'est une entrée plus profonde dans le marché de l'accélération pour l'IA
Où l'effet sera remarqué
Si les négociations aboutissent à des livraisons réelles, l'effet sera d'abord remarqué non par les utilisateurs, mais par les équipes responsables de l'infrastructure de Google. L'inférence n'est pas une exécution unique du modèle, mais une opération continue sous charge, où le système doit répondre rapidement à un énorme nombre de demandes en succession. Dans ce mode, ce qui compte n'est pas seulement le calcul lui-même, mais le temps de réponse prévisible, l'efficacité énergétique et l'absence de goulets d'étranglement lors du transfert de données entre la mémoire et l'accélérateur.
En pratique, cela signifie un réglage plus fin du matériel pour les produits spécifiques. Le marché s'éloigne progressivement de l'idée d'une seule puce universelle qui fonctionne également bien pour toutes les tâches d'IA. Au lieu de cela, les entreprises assemblent des combinaisons séparées de composants pour l'entraînement, l'inférence et les modes interactifs. Les négociations entre Alphabet et Marvell s'inscrivent bien dans cette tendance : les gagnants ne seront pas ceux qui ont plus de GPU, mais ceux qui conçoivent avec plus de précision toute la chaîne d'exécution du modèle pour la charge réelle.
Ce que cela signifie
Les négociations entre Alphabet et Marvell montrent que la nouvelle course de l'IA se déploie non seulement autour des modèles, mais aussi autour de matériel spécialisé pour les services quotidiens. Celui qui pourra fournir une réponse rapide de manière plus économique et plus fiable obtiendra l'avantage.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.