Dernières publications

Huit meilleures plateformes d'authentification pour les agents IA et MCP en 2026
MCP a atteint 97 millions de téléchargements de SDK par mois. Les agents d'IA migrent massivement des expériences vers les environnements de production, et le choix de la bonne plateforme…

SuperClaude Framework aide à structurer les workflows pour Claude API
SuperClaude Framework fournit aux développeurs des composants intégrés pour créer des workflows d'IA avancés : commandes, agents, modes d'exécution et mémoire de session — le tout dans un seul système.

Tencent a lancé un système de mémoire local pour les agents IA TencentDB
Tencent a ouvert le code source de TencentDB Agent Memory — un système de mémoire local pour les agents IA qui réduit la consommation de tokens de 61% et améliore la précision de 28%.

NVIDIA Présente Gated DeltaNet-2: Attention Linéaire avec Portes Mémoire Séparées
NVIDIA a créé un nouveau mécanisme d'attention linéaire, Gated DeltaNet-2, qui améliore la gestion de la mémoire dans les grands modèles de langage grâce à des portes d'effacement et d'écriture séparées au lieu d'une seu

Google présente Gemini 3.5 Flash : un modèle rapide et économique pour le codage et les agents IA
À l'I/O 2026, Google a présenté Gemini 3.5 Flash — un modèle 75 % moins cher que la version phare, 4 fois plus rapide et qui excelle dans le codage et l'automatisation.

Alibaba lance un traducteur avec une latence de 2.8 secondes dans 60 langues
Alibaba a présenté un modèle de traduction en temps réel de la vidéo et de la parole simultanément dans 60 langues, avec une latence minimale et la préservation de la voix du locuteur.

NVIDIA présente Nemotron-Labs-Diffusion : un modèle à triple décodage
NVIDIA a publié le modèle de langage Nemotron-Labs-Diffusion, qui combine trois modes de décodage et traite les tokens 6 fois plus vite que Qwen3-8B.

Génération de graphes de connaissances à partir de texte : guide pratique avec kg-gen et NetworkX
Tutoriel sur l'extraction automatique d'entités et de relations à partir de texte avec kg-gen, la création de graphes de connaissances interactifs et leur analyse avec NetworkX.

Turbovec : index vectoriel en Rust avec l’algorithme TurboQuant de Google Research
Turbovec utilise l’algorithme TurboQuant de Google pour compresser les vecteurs par 16 sans préentraînement, ce qui simplifie le déploiement des applications RAG.

Les meilleures plateformes d'AI agentique en 2026 : classement de Salesforce, Microsoft et d'autres
Les entreprises passent des pilotes à la production. MarkTechPost a établi un classement des 10 meilleures plateformes d'AI agentique : Salesforce Agentforce, Microsoft Copilot Studio, ServiceNow et d'autres. Prix vérifi

NVIDIA a développé une méthode pour entraîner des réseaux neuronaux en précision 4-bit
NVIDIA a présenté NVFP4, une méthodologie pour entraîner de grands modèles en précision 4-bit au lieu de la 8-bit standard, réduisant de moitié la consommation de mémoire sans perte de qualité.

OpenAI présente le protocole MRC pour des réseaux de superordinateurs avec des millions de GPU
OpenAI a créé un nouveau protocole réseau ouvert, MRC, pour les grands clusters d'AI. Il répartit les données sur des centaines de chemins et se remet des pannes en quelques microsecondes, permettant de construire des su

Meta AI a présenté NeuralBench — un framework pour tester des modèles d’activité cérébrale
Meta a lancé NeuralBench, un framework ouvert pour l’évaluation standardisée de modèles d’AI basés sur l’EEG, réunissant 36 tâches, 94 jeux de données et 13,603 heures d’enregistrements cérébraux dans une interface uniqu

Comment compresser un modèle de langage par 3 : guide de FP8, GPTQ et SmoothQuant
Les développeurs ont reçu un guide pas à pas pour compresser de grands modèles de langage avec llmcompressor, comparant l’efficacité des méthodes de quantification FP8, GPTQ et SmoothQuant afin de réduire la charge matér

OpenAI a lancé trois modèles audio : traduction, transcription et raisonnement en temps réel
OpenAI a enrichi la Realtime API de trois nouveaux modèles audio pour le traitement de la voix : des agents de raisonnement, la traduction multilingue et la transcription en continu.

Anthropic a créé un outil pour traduire les pensées de Claude en langage humain
Anthropic a développé Natural Language Autoencoders, une technologie qui traduit les activations internes de Claude en explications textuelles et révèle le fonctionnement du réseau neuronal.

NVIDIA a empaqueté 3 modèles dans un seul fichier et rendu l'entraînement 360× plus efficace
NVIDIA a présenté Star Elastic, une méthode qui regroupe trois modèles de tailles différentes dans un seul checkpoint et permet un entraînement 360× plus efficace.

NVIDIA a lancé cuda-oxide : un compilateur de code Rust pour GPU
NVIDIA a présenté cuda-oxide, un outil permettant de compiler des fonctions Rust directement en code PTX pour GPU. Cela simplifiera le développement d'applications CUDA en Rust et rendra le calcul parallèle plus accessib

NadirClaw : réduire le coût des requêtes LLM grâce à un routage intelligent des prompts
NadirClaw est un outil de routage intelligent des prompts qui classe les requêtes comme simples ou complexes et les envoie vers le modèle approprié afin de réduire les coûts.

Hermes Agent de Nous Research a pris la tête de la consommation de tokens sur OpenRouter
L'agent AI open-source Hermes Agent de Nous Research a dépassé la plateforme à code source fermé OpenClaw et a pris la première place sur OpenRouter, en générant 224 milliards de tokens par jour. Cela s'est produit en se

Comparatif des bases de données vectorielles en 2026 : neuf systèmes par coût, échelle et architecture
Neuf bases de données vectorielles de premier plan sont désormais une infrastructure clé pour le RAG et l’AI agentique. Un aperçu de l’architecture, du coût et de l’évolutivité aide à choisir le bon système selon le cas

Vercel Labs a présenté Zero — un langage pour les agents AI afin d’écrire, corriger et livrer du code
Vercel a lancé Zero — un langage de programmation dont le compilateur produit du JSON au lieu de texte afin que des agents AI puissent écrire, corriger et déployer des programmes natifs de manière autonome

Comment Memori crée une mémoire persistante pour les agents et les LLM multi-session
Memori est une infrastructure de mémoire pour les applications LLM qui permet aux agents de conserver le contexte entre les sessions et de travailler avec plusieurs utilisateurs en même temps.

SHAP pour le machine learning : comparaison des explainers et guide pratique
Un nouveau guide montre comment choisir entre quatre méthodes SHAP pour interpréter les modèles — du rapide Tree au polyvalent Kernel.

DeepMind a créé une souris AI basée sur Gemini pour éviter que les utilisateurs basculent vers des fenêtres de chat
Google DeepMind a présenté une souris AI basée sur Gemini qui analyse le contexte autour du curseur et permet de donner des commandes vocales sans ouvrir de fenêtre distincte.

Mira Murati a présenté le premier système de dialogue naturel avec l’AI en temps réel
Thinking Machines Lab a présenté le modèle TML-Interaction-Small, qui écoute et répond en même temps, en traitant la parole, la vidéo et le texte sans délai — pour la première fois, l’AI peut converser comme un humain.

Nous Research a présenté Lighthouse Attention pour accélérer l'entraînement des LLM
Nous Research a publié un nouveau mécanisme d'attention, Lighthouse Attention, qui accélère de 1,4x à 1,7x l'entraînement de grands modèles de langage lors du traitement de longs contextes.

GLiGuard de Fastino Labs : un modèle de sécurité 16x plus rapide que des concurrents plus grands
Fastino Labs a lancé le modèle ouvert GLiGuard pour les vérifications de sécurité des LLM : seulement 300M de paramètres, mais une précision supérieure à celle de modèles 90 fois plus grands.

Shadow AI dans 63% des entreprises : comment les outils ont devancé les politiques d'entreprise
La plupart des entreprises n'ont toujours pas de politiques formelles de gouvernance de l'AI, alors que les employés adoptent déjà activement des outils de leur côté — ce qui crée de sérieux risques de sécurité.

Nous Research a accéléré le préentraînement des LLM de 2,5x sans changer l’architecture
Nous Research a développé Token Superposition Training, une méthode qui réduit de 2,5x le temps de préentraînement des modèles de langage sans changer l’architecture ni le comportement en inférence.