Dernières publications

Moonshot AI lance Kimi K2.7-Code : amélioration de 21,8% sur Code Bench v2 par rapport à K2.6
Moonshot AI a publié le code source de Kimi K2.7-Code — un modèle de codage agent avec contexte de 256K et consommation de tokens de raisonnement 30% inférieure par rapport à K2.6.

Comparaison des modèles TTS 2026 : des solutions commerciales aux modèles open-source
En 2026, le choix d'un modèle TTS dépend de trois facteurs : la qualité audio, la latence de traitement et le coût. Les solutions commerciales gagnent en naturel, les modèles open-source en contrôle et en prix.

StepFun présente Step 3.7 Flash — un modèle Vision-Language de 198 milliards de paramètres
StepFun a lancé Step 3.7 Flash, un nouveau modèle multimodal doté de 198 milliards de paramètres, d'une vision intégrée, d'une fenêtre de contexte de 256K tokens et d'un mode Advisor pour les agents de code.

NVIDIA X-Token : une distillation qui dépasse GOLD de 3,82 points
NVIDIA a lancé X-Token, une méthode de distillation des connaissances pour les petits modèles (Llama-3.2-1B) qui dépasse GOLD de 3,82 points et améliore la précision en mathématiques de 2,56 à 15,54 %.

AgentTrove : comment utiliser le jeu de données de 1,7 million de traces d'agents en Python
AgentTrove est le plus grand jeu de données ouvert de traces d'interaction entre agents : 1,7 million d'exemples au format ShareGPT. Un tutoriel Python montre comment streamer les données, normaliser les actions des agen

Nous Research a lancé Tool Search pour Hermes Agent : la précision a augmenté de 49 à 74 % sur Opus 4
Nous Research a résolu le problème du gonflement du contexte dans MCP en ajoutant une recherche intelligente d’outils. Le système ne sélectionne que les schémas pertinents et améliore la précision de plusieurs dizaines d

Genesis AI lance Genesis World 1.0 — une plateforme pour évaluer les robots 400 fois plus vite
Genesis AI a lancé Genesis World 1.0, une plateforme de simulation de robots qui réduit le temps d’évaluation de 200 heures à 30 minutes et reproduit le comportement réel avec 90 % de fidélité.

NVIDIA a lancé Polar — un framework pour l'entraînement d'agents de code
NVIDIA a créé Polar — un framework pour l'entraînement d'agents linguistiques via apprentissage par renforcement, qui a amélioré les performances sur SWE-Bench de 22,6 points dans l'environnement Codex.

UC Berkeley a créé mKernel : une bibliothèque unifiée pour la synchronisation des GPU en clusters
UC Berkeley a lancé mKernel — une nouvelle bibliothèque CUDA pour synchroniser des milliers de GPUs dans les data centers, combinant la communication locale et distante dans un seul kernel persistant.

Stability AI lance Stable Audio 3 pour la génération rapide de musique
Stability AI a présenté Stable Audio 3 — des modèles de génération de musique et d'effets sonores qui fonctionnent sur MacBook et GPU grand public avec 8GB VRAM.

ZeroEntropy présente Zerank-2 — un réordonnateur léger pour une recherche précise
ZeroEntropy a lancé Zerank-2, un cross-encodeur compact basé sur Qwen3, qui améliore considérablement la qualité de la recherche dans les systèmes RAG à deux étapes.

Sakana AI a présenté DiffusionBlocks : une méthode d'entraînement des réseaux de neurones par blocs
Sakana AI a présenté DiffusionBlocks — une nouvelle méthode qui permet d'entraîner les couches de réseaux résiduels indépendamment les unes des autres, en interprétant les mises à jour comme une diffusion inverse.

Recherche vectorielle dans PostgreSQL: guide complet de pgvector pour les applications IA
PostgreSQL est devenu un concurrent sérieux des bases de données vectorielles spécialisées grâce à l'extension pgvector.

Perplexity AI Publie un Tokenizeur 5x Plus Rapide que le Standard Hugging Face
Perplexity AI a publié un tokenizeur Unigram réécrit qui accélère le traitement du texte 5x et réduit la charge CPU de 5-6x en environnement de production.

Des chercheurs créent MEMO — un framework pour étendre la mémoire des LLM sans réentraînement
Des chercheurs ont proposé MEMO — un framework qui permet aux LLM d'apprendre de nouvelles données sans réentraîner le modèle principal, en utilisant un module mémoire séparé.

EAGLE 3.1: comment corriger l'instabilité du décodage spéculatif dans les LLM
La version conjointe d'EAGLE team, vLLM et TorchSpec corrige un problème critique du décodage spéculatif — la dérive d'attention qui ralentissait l'inférence des grands modèles de langage en production.

Anthropic a Lancé Claude Opus 4.8 avec des Workflows Dynamiques et un Fast Mode Moins Cher
Anthropic a présenté Claude Opus 4.8 avec des workflows dynamiques et un fast mode plus abordable. La mise à jour est disponible en aperçu de recherche de Claude Code.

Liquid AI a lancé LFM2.5-8B : un modèle MoE compact avec un contexte de 128K
Liquid AI a présenté le nouveau modèle LFM2.5-8B-A1B — un modèle MoE économe qui n'active que 1,5B paramètres sur 8,3B. Fonctionne sur un PC grand public avec un contexte de 128K.

Hexo Labs a publié SIA — un agent qui se met à jour pendant son fonctionnement
Hexo Labs a libéré le code source de SIA — un système qui s'améliore lui-même en mettant à jour à la fois les instructions de l'agent et les poids de son réseau de neurones.

Microsoft Research lance Webwright — un agent navigateur qui résout les tâches web à 60%
Microsoft Research a présenté Webwright — un agent navigateur qui exécute les tâches web complexes mieux que les grands modèles de langage : 60% de réussite sur le benchmark Odysseys contre 33,5% pour le GPT-5.4 de base.

StepFun lance StepAudio 2.5 Realtime, un modèle vocal en temps réel avec support du roleplay
Le laboratoire chinois StepFun a présenté StepAudio 2.5 Realtime, un modèle vocal en temps réel qui surpasse les concurrents en naturalité vocale et peut adapter la voix selon le scénario de l'utilisateur.

Langfuse pour les Ingénieurs LLM : Pipeline Complet de Traçage et Expériences
Langfuse est un outil pour le débogage et l'optimisation des applications LLM. Apprenez à configurer un pipeline complet de surveillance, de gestion des prompts et d'expériences sans modèles payants.

WorkOS a présenté auth.md — un protocole ouvert d'enregistrement des agents IA
WorkOS a lancé auth.md — une norme ouverte qui permet aux agents IA de s'enregistrer automatiquement dans des applications via un fichier Markdown sans intervention humaine.

ByteDance Dévoile Lance : Un Modèle Unique pour la Compréhension, la Génération et l'Édition de Vidéo
ByteDance a lancé Lance — un modèle ouvert qui fonctionne avec des images et des vidéos dans un seul framework : comprend, génère et édite du contenu en utilisant seulement 3B paramètres actifs.

Cohere lance Command A+ : 218 milliards de paramètres pour agents sur deux GPUs
Cohere a dévoilé le modèle ouvert Command A+ avec 218 milliards de paramètres et des capacités multimodales, fonctionnant sur deux GPUs H100 et supportant 48 langues.

Perplexity Ouvre le Scanner Bumblebee pour Protéger les Systèmes de Développement
Perplexity a publié le code source de Bumblebee, un outil permettant de scanner les vulnérabilités dans les dépendances des systèmes de développement sans exécuter aucun code.

Alibaba a présenté Qwen3.7-Max : un agent avec un contexte d'un million de tokens
Alibaba a présenté Qwen3.7-Max, le modèle d'agent le plus avancé de Qwen avec un contexte de 1M tokens et un mode de raisonnement pour les tâches complexes multi-étapes.

CopilotKit redéfinit l'architecture des agents IA en 2026
CopilotKit a lancé une stack pour les développeurs d'IA agentic : le protocole AG-UI, la plateforme de test AIMock et le serveur Pathfinder — une solution complète pour la production.

OpenMythos : créer des transformateurs avancés avec MLA et GQA dans Colab
OpenMythos permet de construire des transformateurs récurrents dans Google Colab en comparant les architectures MLA et GQA, avec vérification de stabilité via le rayon spectral.

Nous Research présente CNA : gérer le comportement des LLM sans réentraînement
Nous Research a présenté la méthode Contrastive Neuron Attribution (CNA), qui permet de gérer le comportement des grands modèles de langage en identifiant et désactivant des circuits de neurones sans réentraînement ni mo