Habr AI a montré comment fonctionne la caméra virtuelle pour Shorts et Reels avec face tracking
Habr AI a publié une analyse détaillée de la caméra virtuelle pour Shorts et Reels. Au lieu d’un simple autocrop, l’auteur a monté un production pipeline…
Traité par IA depuis Habr AI ; édité par Hamidun News
Habr AI a démontré comment fonctionne une caméra virtuelle pour la vidéo verticale, convertissant une vidéo horizontale standard en Shorts ou Reels sans le recadrage automatique saccadé typique de ces conversions. L'auteur décrit un pipeline de production où la caméra suit le visage comme un système dynamique séparé, plutôt que de suivre une simple boîte délimitatrice.
Pourquoi le Recadrage Automatique Échoue
En théorie, la tâche semble simple : prendre un cadre 16:9, extraire une fenêtre 9:16 et garder la personne centrée. En vidéo réelle, cette approche s'effondre rapidement. Le visage peut se déplacer à gauche ou à droite, une deuxième personne peut apparaître dans le cadre et le détecteur lui-même introduira du bruit, perdra la cible lors des rotations de tête, des reflets ou des gestes. Le résultat est une vidéo verticale qui ressemble à une autofocus ancienne : l'image tremble nerveusement et gère constamment mal la composition.
L'auteur propose de voir le problème non pas comme un recadrage automatique, mais comme une caméra virtuelle avec sa propre inertie, des contraintes de vitesse, un délai de réaction et une logique de secours. Le système ne peut pas simplement « suivre le centre de la boîte ». Il doit exister dans le temps, tolérer les données imprécises, ne pas paniquer lors de brèves pertes de visage et maintenir un mouvement significatif même dans les scènes où aucun visage n'apparaît du tout. C'est critique pour les longs clips.
«
Une caméra n'est pas une coordonnée, mais un système dynamique. »
Comment Fonctionne le Pipeline
La solution principale utilise une chaîne de détection de visage à trois niveaux : MediaPipe → YuNet → Haar Cascade. Le premier détecteur fonctionne comme l'option principale, le second agit comme un backend ONNX de secours via OpenCV, et le troisième reste la dernière ligne de défense lorsque tout le reste n'est pas disponible ou fonctionne mal. Ensemble, ils produisent un format de données unifié : centre du visage, taille, confiance et boîte délimitatrice. De cette manière, le reste du système est indépendant du détecteur spécifique et peut fonctionner de manière stable même en mode dégradé.
En haut de la détection vient le suivi simple mais pratique : le système compare le centre du visage du cadre précédent aux candidats actuels et sélectionne l'objet le plus proche. Si le visage disparaît brièvement, une période de grâce s'active—la caméra fait confiance à la dernière position connue pendant un bref moment pour éviter les saccades sur une seule erreur. Après cela, le signal est nettoyé en deux étapes supplémentaires et reçoit un secours séparé pour les scènes sans visages.
- Anti-saccade élimine les sauts de coordonnées excessivement grands entre les cadres
- Filtre passe-bas lisse le bruit résiduel et les micro-vibrations
- Secours Ken Burns gère la scène si le visage est perdu ou absent
- Interpolation de trajectoire convertit l'analyse à 8 FPS en mouvement fluide pour la sortie finale à 30 ou 60 FPS
À l'étape finale, le système ne se contente pas de stocker des états discrets de la caméra—il construit une trajectoire continue. Ensuite, pour chaque cadre, il prend le centre et le zoom, calcule la ROI, extrait la région nécessaire et la met à l'échelle au format vertical final. Cela maintient le pipeline à un niveau de calcul raisonnable : l'analyse peut être effectuée sur une copie réduite de la vidéo, tandis que le recadrage final fonctionne avec l'original, sans perdre la fluidité du mouvement dans le rendu final.
Comment la Caméra Devient un Opérateur
La partie la plus intéressante est le modèle de mouvement. Au lieu de sauts instantanés vers le point cible, la caméra est décrite comme un oscillateur amorti : elle a une « masse », une rigidité, un amortissement, des limites d'accélération et une vitesse maximale. Ce schéma fournit l'inertie et rend le mouvement authentique. Si une personne commence à se déplacer plus vite, vous pouvez ajouter une anticipation prédictive pour que la caméra regarde légèrement vers l'avant plutôt que de simplement poursuivre la cible. Paradoxalement, un léger délai artificiel—lag humain—améliore aussi le résultat : les réactions parfaitement précises semblent souvent moins naturelles que les réactions légèrement retardées.
Au-dessus de la physique, l'auteur applique des règles de composition. La caméra peut décaler le visage vers les lignes de tiers, élever le point d'attention plus près du niveau des yeux, ignorer les micro-mouvements dans une zone morte et maintenir une marge de visage sûre pour éviter de couper les oreilles, les cheveux et les gestes aux bords du cadre. Pour les scènes de talking-head, il y a un mode single-face dédié avec une vitesse plus conservatrice et une stabilisation renforcée, et pour les vidéos sans visages—une transition en douceur vers Ken Burns avec panoramique et zoom au lieu d'un centre « gelé ».
Ce Que Cela Signifie
Cet examen montre où se dirigent les outils d'édition vidéo IA. La qualité ici ne naît pas d'un seul modèle « magique », mais d'un assemblage d'ingénierie : les détecteurs de secours, le suivi, le filtrage, la physique du mouvement et la composition fonctionnent ensemble. Pour les créateurs de contenu et les équipes qui produisent en masse des vidéos longues recadrées en Shorts et Reels, ce n'est plus un recadrage automatique de jouet, mais un modèle pratique de caméra de production qui peut être répliqué et adapté à différents styles de tournage.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.