Google présente STATIC : recherche générative 948 fois plus rapide
Google AI a présenté STATIC, un framework basé sur des matrices creuses qui accélère de 948 fois le décodage contraint dans les systèmes de recommandation…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Les systèmes de recommandation qui déterminent ce que vous voyez dans votre fil YouTube, Google Play ou tout autre grand service sont au seuil d'un changement fondamental. Au lieu de l'approche classique basée sur la recherche des plus proches voisins dans l'espace des embeddings, l'industrie expérimente de plus en plus la recherche générative — où un grand modèle de langage « invente » directement les identifiants des éléments appropriés. Google AI vient de présenter le framework STATIC, qui résout l'un des problèmes les plus douloureux de cette approche et le fait avec une accélération stupéfiante — 948 fois plus rapide.
Pour comprendre la signification de ce travail, il faut saisir le contexte. La Recherche Générative (GR) est un paradigme dans lequel chaque élément du catalogue — qu'il s'agisse d'une vidéo, d'un produit ou d'un article — est codé comme ce qu'on appelle un Identificateur Sémantique (Semantic ID), c'est-à-dire une séquence de tokens discrets. Un modèle de langage est entraîné à générer ces séquences de manière autorégressive, token après token, de manière analogue à la façon dont GPT génère du texte.
Cela semble élégant, mais en pratique un obstacle sérieux émerge : les systèmes de recommandation industriels ne fonctionnent pas dans le vide. La logique métier dicte des contraintes strictes — le contenu doit être frais, se conformer aux réglementations régionales, ne pas violer les classifications d'âge, tenir compte des accords de licence. Le modèle ne peut pas simplement générer librement des identifiants — chaque étape du décodage doit être vérifiée pour respecter ces contraintes.
C'est précisément là que les problèmes commencent. Le décodage contraint (constrained decoding) dans les implémentations existantes fonctionne terriblement lentement. À chaque étape de génération, le modèle doit vérifier par rapport à un ensemble massif de continuations valides, filtrer les options invalides et redistribuer les probabilités. Avec des catalogues contenant des dizaines de millions d'éléments et des contraintes combinatoires complexes, cela devient un cauchemar computationnel. Les approches antérieures utilisaient des structures de données arborescentes — des arbres de préfixes (tries) — mais elles passent mal à l'échelle lorsque plusieurs contraintes chevauchantes sont imposées et sont pratiquement impropres à la parallélisation efficace sur GPU.
STATIC (Sparse maTrix frAmework for consTraIned deCoding) offre une approche fondamentalement différente. Plutôt que de parcourir des arbres, le framework traduit toute la logique de contrainte dans le langage des opérations de matrices creuses. Chaque contrainte — qu'il s'agisse d'un filtre par date de publication, géographie ou catégorie — est représentée sous forme de matrice creuse, et leur combinaison se réduit à des opérations matricielles standard : multiplication, intersection, union.
Cela offre deux avantages critiques. Premièrement, les opérations de matrices creuses sont brillamment optimisées sur les GPU et TPU modernes — des décennies de travail sur l'algèbre linéaire en apprentissage automatique ont créé une infrastructure puissante pour cela. Deuxièmement, cette approche permet de combiner élégamment un nombre arbitraire de contraintes sans croissance exponentielle de la complexité.
Le chiffre d'accélération de 948 fois mérite un commentaire séparé. Dans la recherche en optimisation, on rencontre souvent des multiplicateurs impressionnants qui s'avèrent être le résultat de la comparaison avec une solution de base intentionnellement faible. Cependant, dans le cas de STATIC, il s'agit de comparaison avec des méthodes réelles, utilisées en production, de décodage contraint. Un tel ordre d'accélération signifie qu'une opération qui prenait des minutes s'ajuste maintenant en fractions de seconde — et c'est la différence entre une technologie théoriquement intéressante et pratiquement applicable.
Les implications pour l'industrie des systèmes de recommandation pourraient être assez importantes. Jusqu'à présent, la recherche générative est restée largement un concept de recherche précisément en raison de la difficulté de respecter les contraintes métier en temps réel. Les entreprises gériant des catalogues de centaines de millions d'éléments ne pouvaient tout simplement pas se permettre des délais de décodage. STATIC élimine potentiellement cette contrainte, ouvrant la voie à remplacer les modèles traditionnels à deux tours avec recherche approximée des plus proches voisins par des pipelines entièrement génératives. Cela, à son tour, pourrait améliorer la qualité des recommandations — les modèles génératifs sont capables de capturer des modèles plus complexes des préférences des utilisateurs que les embeddings statiques.
Il y a aussi un contexte plus large. Le décodage contraint n'est pas un problème uniquement pour les systèmes de recommandation. Il se pose dans la génération structurée de texte, dans les systèmes où les modèles de langage doivent produire du JSON valide, des requêtes SQL ou du code conforme aux grammaires formelles. Si l'approche STATIC s'avère généralisable, ses principes pourraient trouver une application bien au-delà des recommandations.
Google continue à transformer méthodiquement les modèles de langage d'outils de génération de texte en moteurs informatiques universels. STATIC n'est pas une annonce bruyante d'un nouveau chatbot, mais une innovation d'infrastructure qui peut changer silencieusement, mais radicalement, l'architecture des systèmes avec lesquels des milliards d'utilisateurs interagissent quotidiennement. C'est précisément ce type de travail — inaperçu du grand public mais critique pour les ingénieurs — qui, en fin de compte, détermine l'intelligence et la rapidité des services que nous utilisons.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.