Dernières publications

AllenAI Lance olmo-eval — Une Plateforme pour Évaluer des LLM Pendant l'Entraînement
AllenAI a lancé olmo-eval, une suite d'outils ouverte pour l'évaluation continue des modèles de langage pendant tout le cycle d'entraînement — point de contrôle après point de contrôle.

Cohere présente North Mini Code — un modèle pour les développeurs et les agents IA
Cohere a lancé North Mini Code — un modèle de 30 milliards de paramètres entraîné sur la programmation et l'interaction avec les agents IA. Le modèle est gratuit et accessible à tous.

Les agents vocaux ne sont pas prêts pour les clients bilingues. Recherche ServiceNow-AI
Les agents vocaux fonctionnent mal avec les clients bilingues. Cela a été démontré par une recherche de l'équipe ServiceNow-AI, qui a testé sept systèmes populaires de reconnaissance vocale sur des…

Comment accélérer les modèles PyTorch : guide pratique torch.profiler
Hugging Face présente torch.profiler, un outil intégré de PyTorch pour l'analyse de performance. Il aide à identifier les goulots d'étranglement dans l'entraînement et l'inférence des modèles.

Hugging Face apprend à TRL à livrer un trillion de paramètres via poids delta
Hugging Face a ajouté Delta Weight Sync à TRL — une technique qui envoie uniquement les modifications de poids au lieu de fichiers complets, réduisant le volume de données de centaines de fois lors de l'entraînement de m

Reachy Mini a appris à converser localement sans cloud
Le robot humanoïde Reachy Mini peut désormais exécuter toute la pile de reconnaissance vocale localement, sans cloud ni API, grâce aux modèles ouverts de Hugging Face.

IBM et Artificial Analysis créent un benchmark : les agents d'IA échouent aux tâches informatiques
Les grands modèles de langage ont obtenu moins de 50% au nouveau benchmark ITBench-AA pour évaluer la capacité des agents d'IA à résoudre les tâches informatiques d'entreprise. Cela montre que l'automatisation complète d

NVIDIA Nemotron : les modèles de diffusion génèrent le texte 6 fois plus vite
NVIDIA a présenté Nemotron-Labs Diffusion, les premiers modèles générant le texte en parallèle. En mode auto-spéculation, ils fonctionnent 6 fois plus vite grâce à la diffusion.

Comment un petit modèle a surpassé GPT-5 et Claude Opus en OCR portugais
Dharma AI a entraîné un modèle spécialisé de 3 milliards de paramètres surpassant tous les modèles frontier commerciaux en reconnaissance de texte, 52 fois moins cher.

Hugging Face a lancé Open Agent Leaderboard pour évaluer les agents AI
Hugging Face a présenté un benchmark ouvert pour comparer des systèmes complets d'agents AI. Il montre que l'architecture de l'agent compte davantage que le modèle choisi.

PaddleOCR 3.5 reçoit le support des Transformers de Hugging Face
PaddleOCR supporte désormais les Transformers de Hugging Face comme backend d'inférence. La reconnaissance de texte et l'analyse de documents fonctionnent dans un environnement PyTorch.

NVIDIA a montré un moyen efficace d'entraîner Cosmos sur des vidéos de robots via LoRA
NVIDIA a publié un guide pour l'ajustement fin du modèle Cosmos Predict 2.5 via LoRA/DoRA — une méthode paramétriquement efficace pour générer des vidéos de robots en 17 heures sur un seul GPU.

Ettin Reranker de Hugging Face : 6 modèles pour un réordonnement de recherche précis
Hugging Face a publié 6 réordonneurs Ettin basés sur ModernBERT avec une précision et une vitesse de pointe grâce à Flash Attention 2 et l'optimisation des séquences.

OlmoEarth v1.1 : Allen AI lance des modèles satellites 3 fois moins chers
Allen AI a présenté une version plus efficace des modèles d'analyse d'images satellites, réduisant les coûts de calcul de 3 fois tout en maintenant la qualité.

Comment le modèle d’Allen AI a appris à découvrir seul la spécialisation des experts
Allen AI a présenté EMO, un modèle fondé sur un mélange d’experts qui développe naturellement une spécialisation par domaine (santé, politique, cinéma) sans entraînement explicite sur ces catégories.

CyberSecQwen-4B : comment un petit modèle est devenu un expert des vulnérabilités
Ce modèle de cybersécurité spécialisé de 4 milliards de paramètres surpasse des concurrents généralistes dans l’analyse des vulnérabilités et fonctionne localement sur du matériel personnel sans services cloud.

OncoAgent : système d'AI de détection précoce du cancer basé sur des données privées de patients
Comment un algorithme d'apprentissage automatique aide les médecins à prendre des décisions sur le diagnostic du cancer sans compromettre la confidentialité des patients

Hugging Face a accéléré l’inférence LLM de 22% grâce au batching asynchrone
Le traitement parallèle du CPU et du GPU, au lieu d’un traitement séquentiel, a supprimé 24% du temps d’inactivité du GPU et accéléré la génération de tokens de près d’un quart sans modifier le modèle.

IBM a lancé Granite Embedding R2 — un modèle multilingue pour la recherche sémantique
IBM a présenté Granite Embedding R2, un modèle multilingue ouvert pour la recherche sémantique avec une prise en charge d'un contexte de 32K et les meilleures performances de sa catégorie parmi les modèles sub-100M.

H Company a publié Holotron-12B — un modèle pour agents avec une vitesse multipliée par deux
H Company a publié Holotron-12B sur Hugging Face : le modèle multimodal pour agents AI offre plus du double de throughput dans des tâches d'utilisation d'interfaces sur un seul H100.

NVIDIA a présenté SPEED-Bench — un benchmark unifié pour le speculative decoding
NVIDIA a publié SPEED-Bench, un jeu de données et un framework de mesure qui compare le speculative decoding sur des charges réelles, des contextes longs et différents moteurs d’inférence.

IBM a lancé Mellea 0.4.0 et Granite Libraries pour des pipelines d'AI vérifiables
IBM Research a mis à jour le framework open source Mellea vers la version 0.4.0 et a lancé trois Granite Libraries pour des flux de travail AI structurés, vérifiables et sûrs.

NVIDIA a montré comment affiner en une journée un modèle d'embedding pour un domaine spécifique
NVIDIA et Hugging Face ont publié une recette pas à pas qui transforme en quelques heures un modèle d'embedding de base en système de recherche spécialisé sur des documents internes.

ServiceNow a présenté EVA — un nouveau framework pour évaluer les agents vocaux AI
ServiceNow a lancé EVA — un système qui évalue les agents vocaux AI non seulement selon la réussite de la tâche, mais aussi selon la qualité du dialogue, de la brièveté des réponses au timing des prises de parole.

IBM lance Granite 4.0 3B Vision pour extraire des données de documents et de graphiques
IBM a présenté Granite 4.0 3B Vision, un modèle multimodal compact pour extraire des tableaux, des graphiques et des champs clés de documents, qui peut être intégré à des pipelines d'entreprise avec Docling.

H Company présente Holo3 — un agent AI pour travailler sur ordinateur avec un score record sur OSWorld-Verified
H Company a lancé Holo3, un modèle pour travailler sur ordinateur qui a obtenu 78,85 % sur OSWorld-Verified et a été entraîné sur des scénarios d’entreprise synthétiques.

Google a publié Gemma 4 sur Hugging Face : des modèles multimodaux pour l’exécution locale
Google DeepMind a ouvert la famille Gemma 4 sur Hugging Face : quatre modèles multimodaux sous licence Apache 2.0, avec jusqu’à 256K de contexte et une exécution allant du téléphone à la station de travail.

Hugging Face a ajouté gradio.Server : il est désormais possible de connecter son propre frontend à un backend Gradio
Le nouveau gradio.Server de Hugging Face transforme Gradio en couche backend pour React, Svelte et du HTML/JS classique, tout en conservant les files de requêtes, ZeroGPU et la compatibilité avec Spaces.

Hugging Face transfère Safetensors à la PyTorch Foundation pour une gouvernance neutre du format
Hugging Face a annoncé que Safetensors est devenu un projet de la PyTorch Foundation : il n'y a pas de changements incompatibles pour les utilisateurs, tandis que le développement du format passe à un modèle de gouvernan

Overworld a lancé Waypoint-1.5 : des mondes interactifs en 720p pour les GPU grand public
Overworld a lancé Waypoint-1.5, un world model pour une exécution locale sur des GPU grand public : jusqu'en 720p et 60 FPS, avec en plus une version 360p allégée pour un plus large éventail de PC et d'ordinateurs portab