Habr AI→ original

NextFilm décrit un modèle de recommandation de films : cold start, vecteur de goût et couche GPT

Le projet NextFilm a montré comment résoudre le problème de cold start dans les recommandations de films sans s'appuyer uniquement sur les genres. Le système…

Traité par IA depuis Habr AI ; édité par Hamidun News
NextFilm décrit un modèle de recommandation de films : cold start, vecteur de goût et couche GPT
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

NextFilm a décrit comment il construit un système de recommandation de films pour les utilisateurs dont on ne sait presque rien au départ. Au lieu de simples sélections basées sur les genres, il propose un pipeline hybride : collecter les signaux initiaux, construire un vecteur de goût, le confronter aux modèles collectifs et ensuite seulement connecter GPT.

Pourquoi les genres ne suffisent pas

Le problème commence par le fait que le même genre ne garantit rien. Deux spectateurs peuvent aimer la science-fiction, mais l'un a besoin d'histoires lentes et philosophiques tandis que l'autre veut une intrigue dense et du spectaculaire. Pour un couple, la tâche devient encore plus difficile : il faut trouver non seulement un « film populaire », mais une option qui ne soit pas aléatoire pour les deux. C'est pourquoi les listes « que regarder ce soir » fonctionnent comme une vitrine mais échouent rapidement comme recommandation personnelle.

Chez NextFilm, l'auteur ne s'appuie pas sur les genres mais sur l'expérience réelle du spectateur. Au départ, le système doit comprendre ce qu'une personne a déjà vu, ce qu'elle a noté haut et ce qu'elle n'a pas regardé. C'est critique pour le cold start : sans cette distinction, le modèle confond facilement l'absence de données avec une réaction négative et commence à tirer des conclusions de rien. Ce contexte détermine le risque de suggérer des options évidentes ou déjà regardées.

Le système doit comprendre non seulement « ce qui plaît », mais aussi

le type d'expérience de visualisation de l'utilisateur.

Comment fonctionne le pipeline

Après les évaluations initiales, le modèle passe d'une liste de contenu regardé à un profil plus précis. Le goût est divisé en caractéristiques subtiles : rythme, ton émotionnel, profondeur, spectaculaire, familiarité de la forme et densité de l'intrigue. Cela crée un vecteur interne de préférences qui explique pourquoi deux films du même genre peuvent être très éloignés pour une personne spécifique. Cela donne au modèle une base plus interprétable pour les hypothèses initiales précises.

  • L'utilisateur marque d'abord les films déjà regardés et donne les évaluations initiales
  • Le système construit un profil initial et sépare les signaux forts du bruit
  • Un vecteur de goût est alors formé sur la base d'un ensemble de caractéristiques, pas seulement les genres
  • Le modèle compare ensuite ce profil avec les modèles de MovieLens 25M
  • Après le classement des candidats, le résultat est affiné pour la présentation finale

Une couche séparée du schéma est le signal collectif. L'auteur utilise MovieLens 25M, qui contient 25 millions d'évaluations sur plus de 62 000 films. La logique est simple : si un utilisateur aime un certain ensemble de films, le système voit ce qui est aussi régulièrement apprécié par des personnes avec des modèles similaires. Ce n'est pas un remplacement pour un profil personnel mais un moyen de rendre les recommandations plus robustes et de réduire la part des correspondances aléatoires. C'est ainsi que le schéma hybride gagne en échelle sans perdre complètement la personnalisation.

Où GPT est nécessaire

GPT ne remplace pas le moteur de recommandation lui-même ici. Il s'active après les étapes de collecte de signaux, de construction de profil et de classement de base. Son rôle est de réordonner les candidats, de grouper les résultats et d'expliquer à l'utilisateur pourquoi la sélection se présente ainsi. Cette approche est importante car LLM peut améliorer la perception des résultats, mais ne corrigera pas une faible pertinence de base si le classement a été mal construit dès le départ. Essentiellement, il gère l'emballage du résultat, pas son origine.

Le schéma a aussi des limitations. Le point le plus sensible est l'onboarding : pour que les recommandations deviennent utiles, un nouvel utilisateur doit consacrer du temps aux évaluations initiales. Il y a aussi un risque de dérive vers des films trop populaires si les données collectives commencent à dominer le profil personnel. De plus, les goûts changent avec le temps, donc le modèle doit être réentraîné sur de nouveaux signaux plutôt que de considérer le profil comme fixe après la première connexion. Sans mises à jour, le système deviendra rapidement répétitif et perdra en précision.

Ce que cela signifie

L'histoire de NextFilm illustre bien comment le rôle de LLM change dans les produits de recommandation. La principale valeur provient toujours des données, du classement et d'une gestion prudente du cold start, tandis que GPT devient non pas de la « magie » mais une couche d'interface et d'interprétation. Pour les services de médias, c'est une orientation pratique : d'abord construire le signal, puis ajouter la couche générative par-dessus. Cette approche peut être utile non seulement pour les services cinématographiques mais pour tout produit où les recommandations doivent être expliquées à l'utilisateur.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…