GPT-5.2 : OpenAI a rendu son modèle 40% plus rapide (sans « stéroïdes »)
Vous êtes-vous déjà demandé pourquoi votre chatbot préféré s'« arrête » parfois pendant quelques secondes avant de fournir une réponse qu'il connaît…
Traité par IA depuis 36Kr (36氪) ; édité par Hamidun News
Vous êtes-vous déjà demandé pourquoi votre chatbot préféré s'« arrête » parfois pendant quelques secondes avant de fournir une réponse qu'il connaît clairement déjà ? Dans le monde des grands modèles de langage, le temps n'est pas seulement de l'argent—c'est l'expérience utilisateur et, en fin de compte, la survie du produit sur le marché. Aujourd'hui, l'équipe OpenAI Developers a mis davantage de bois sur le feu de la course à la vitesse, en annonçant une accélération significative de ses modèles actuels.
Nous parlons de GPT-5.2 et du modèle spécialisé Codex, qui sont soudainement devenus 40% plus rapides. Ce qu'il y a de plus intrigant dans cette nouvelle, c'est l'aspect technique.
Les ingénieurs d'OpenAI ont souligné que cette accélération a été réalisée sans modifier l'architecture du modèle et sans recalculer les poids. Pour ceux qui ne sont pas immergés dans les détails : généralement, pour rendre un modèle plus rapide, vous devez soit le « tailler » (distillation), soit le réentraîner à partir de zéro avec moins de paramètres. Ici, nous voyons la pure magie de l'optimisation de l'inférence.
Il semble que l'équipe de Sam Altman ait trouvé un moyen d'utiliser le matériel disponible de manière plus efficace sans sacrifier le « cerveau » du réseau neuronal.
Pourquoi cela importe-t-il maintenant ? Nous sommes à un moment où la qualité des réponses des principaux modèles—que ce soit GPT, Claude ou Gemini—a atteint un certain plateau. La différence en matière de logique devient de moins en moins perceptible pour l'utilisateur moyen. Désormais, la bataille se déplace sur le plan de l'efficacité. Si votre modèle génère du code de la même qualité que celui d'un concurrent, mais le fait près de 1,5 fois plus rapidement, les développeurs vous choisiront. Pour Codex, c'est littéralement une question de vie ou de mort : lorsque vous écrivez du code dans un IDE, même un délai d'une demi-seconde commence à agacer et interrompt votre flux de pensée.
Ce bond de 40% frappe également les positions des startups matérielles comme Groq, qui construisent leur marketing uniquement sur des vitesses folles de génération de jetons. Si OpenAI peut continuer à optimiser les logiciels à ce rythme, le besoin d'« accélérateurs » spécialisés pourrait ne pas être aussi urgent que les analystes l'avaient prédit. C'est un signal pour tout le marché : avant d'acheter dix mille H100 supplémentaires, essayez de réécrire vos cœurs CUDA et d'optimiser le batching.
Pour les entreprises finales, cette mise à jour signifie des économies directes. Une inférence plus rapide signifie moins de frais de temps serveur par requête. Il n'est pas encore clair si cela se reflétera dans le coût des jetons dans l'API, mais historiquement, OpenAI a toujours cherché à convertir l'efficacité technique en réductions de prix pour gagner des parts de marché. Probablement, dans les prochaines semaines, nous verrons une mise à jour de la liste des prix qui fera se gratter la tête à Anthropic et Google à nouveau.
En fin de compte, nous voyons que l'ère de la « force brute », où le progrès n'était réalisé que par une augmentation de l'échelle de calcul, est graduellement complétée par une ère de maîtrise élégante de l'ingénierie. OpenAI signale clairement qu'ils ne se contentent pas de louer des clusters énormes à Microsoft, mais qu'ils savent aussi en tirer le maximum. C'est un bon signe pour toute l'industrie : le potentiel des architectures actuelles est loin d'être épuisé.
L'essentiel : OpenAI déplace l'accent de l'« intelligence » vers la « vitesse », et 40% n'est que le début. Les concurrents sont-ils prêts pour une telle optimisation sans perdre en qualité ?
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.