MarkTechPost

Stanford a présenté OpenJarvis — une stack d'agents AI locaux avec mémoire et apprentissage
Stanford a présenté OpenJarvis — une plateforme pour des agents AI personnels qui fonctionnent directement sur l'appareil, utilisent la mémo

Harry Tan a lancé gstack — un système de workflow pour Claude Code avec QA, revue et release
Harry Tan a publié gstack en open source — un ensemble de modes pour Claude Code qui sépare la planification, la revue, le QA et le release

Zhipu AI lance GLM-OCR, un modèle OCR compact de 0,9 milliard de paramètres pour les documents
Zhipu AI et l'université Tsinghua ont présenté GLM-OCR, un modèle OCR multimodal de 0,9 milliard de paramètres capable d'analyser des docume

LangChain a publié Deep Agents pour des agents AI multi-étapes avec mémoire et isolation
LangChain a publié Deep Agents, une bibliothèque pour des agents AI qui ont besoin de planification, de mémoire à long terme, de contexte de

IBM a lancé Granite 4.0 1B Speech — un modèle vocal multilingue compact pour l'edge AI
IBM a présenté Granite 4.0 1B Speech, un modèle léger de reconnaissance et de traduction de la parole conçu pour un déploiement rapide dans

Moonshot AI a présenté Attention Residuals — une alternative aux connexions résiduelles dans les transformers
Moonshot AI a proposé Attention Residuals, un remplacement des connexions résiduelles standard dans les transformers, où la couche sélection

Mistral a lancé Small 4 — un modèle MoE de 119 milliards de paramètres pour le reasoning, le code et la multimodalité
Le nouveau Mistral Small 4 réunit instruct, reasoning, code et traitement d’images dans un seul modèle MoE open-source de 119 milliards de p

Google a lancé WAXAL, un jeu de données de parole ouvert pour les langues africaines
Google a rendu public WAXAL, un vaste corpus de parole pour les langues africaines, qui doit accélérer la reconnaissance et la synthèse de l

Nvidia a ouvert le code d’OpenShell, un environnement sécurisé pour les agents autonomes d’AI
Nvidia a publié OpenShell en open source : c’est un environnement avec des sandboxes, des politiques d’accès et un routage privé pour permet

Baidu lance Qianfan-OCR — un modèle 4B pour la reconnaissance et la compréhension de documents
Baidu a présenté Qianfan-OCR, un modèle 4B unifié qui analyse la structure du document, reconnaît le texte et, à la demande, extrait des tab

MarkTechPost a montré comment construire un système LLM avec autoévaluation, confiance et recherche web
MarkTechPost a présenté un schéma pratique d'uncertainty-aware LLM : le modèle répond d'abord et estime son niveau de confiance, puis se vér

GitAgent propose un format unifié pour les agents AI dans LangChain, AutoGen et Claude Code
GitAgent propose de stocker la logique, la mémoire et les règles d'un agent AI dans un dépôt Git, puis d'exporter ce même agent vers LangCha

Google lance colab-mcp : comment les agents automatisent les notebooks Colab en production
Google a présenté un serveur open-source colab-mcp pour gérer les notebooks Colab via MCP : les agents peuvent ajouter des cellules, exécute

Yann LeCun présente LeWorldModel — Modèle JEPA sans effondrement de représentation à partir de pixels
L'équipe de Yann LeCun a présenté LeWorldModel — un world model qui apprend directement à partir de pixels avec deux fonctions de perte, évi

HKUDS Présente OpenSpace en Détail — Moteur d'Auto-Évolution de Compétences pour Agents IA
HKUDS a démontré comment OpenSpace transforme les agents IA en systèmes autoapprenants : le moteur préserve les compétences après chaque tâc

Nvidia a présenté PivotRL — un framework pour les agents IA avec une économie 4x sur les étapes de rollout
Nvidia a présenté PivotRL — une approche de fine-tuning des agents IA qui préserve la qualité en dehors du domaine d'entraînement et atteint

Google présente TurboQuant : compression du cache KV 6x pour les LLM sans perte de précision
Google Research a présenté TurboQuant — un algorithme qui compresse le cache KV des grands modèles de langage au moins six fois et accélère

MolmoWeb-4B par Ai2 : Un agent web qui voit les sites comme les humains, sans parsing HTML
Ai2 a lancé MolmoWeb-4B — un agent web multimodal open-source qui contrôle un navigateur uniquement à partir de captures d'écran, sans accès

Tencent ouvre Covo-Audio — modèle 7B pour dialogues vocaux et raisonnement audio
Tencent AI Lab a open-sourcé Covo-Audio — un modèle audio 7B qui accepte la parole continue, répond par la voix et cible les dialogues et le

Qwen3.5 : Exécuter les Modèles de Reasoning en Format GGUF et 4-bits via Colab
Un pipeline Colab est présenté pour exécuter les modèles Qwen3.5 de reasoning, distillés au style Claude : avec un seul paramètre vous pouve

Google Lance Gemini 3.1 Flash Live pour les Agents IA Vocaux et les Dialogues Multimodaux
Google a ouvert l'accès en aperçu à Gemini 3.1 Flash Live — un modèle pour les agents IA vocaux et visuels avec latence faible, support des

IWE et OpenAI : Comment Transformer des Notes Markdown en un Graphe de Connaissances pour Agents IA
En utilisant IWE comme exemple, nous avons montré comment construire un graphe de connaissances local à partir de markdown, connecter OpenAI

Google a expliqué la différence entre Google-Agent et Googlebot pour l'accès et l'indexation par IA
Google a décrit comment le nouveau Google-Agent se différencie de Googlebot : le premier exécute des actions sur le site à la demande de l'u

Des chercheurs affiliés à Amazon ont présenté A-Evolve pour l'évolution automatique des agents IA
Des chercheurs affiliés à Amazon ont présenté A-Evolve — un système qui automatise le développement d'agents IA et remplace l'ajustement man

Agent-Infra Présente AIO Sandbox — Environnement Unifié pour Agents IA avec Navigateur et Shell
Agent-Infra a publié AIO Sandbox open-source — un environnement containerisé où navigateur, shell, couche de fichiers partagés et MCP sont i

Cursor lance un SDK TypeScript pour les coding-agents avec des sandbox cloud et facturation par jetons
Cursor a ouvert la version bêta publique de son SDK TypeScript : les développeurs peuvent désormais exécuter des coding-agents localement, d

Alibaba lance Qwen3.5-Omni — un modèle multimodal natif pour le texte, l'audio et la vidéo
Alibaba a dévoilé Qwen3.5-Omni — un modèle omnimodal natif qui comprend le texte, les images, l'audio et la vidéo dans une seule architectur

OpenAI a Lancé Privacy Filter : Modèle Ouvert pour Supprimer les Données Personnelles
OpenAI a publié Privacy Filter — un modèle open-source pour la détection et le remplacement automatiques des données personnelles, fonctionn

OpenAI et Promptflow : comment construire des pipelines LLM avec traçabilité et évaluation de qualité
Le guide montre comment construire un pipeline LLM dans Google Colab en utilisant Promptflow, Prompty et OpenAI avec une configuration sécur

Meta FAIR Publie NeuralSet — Paquet Python pour Connecter les Données Neurales et les Modèles d'IA
Meta FAIR a ouvert NeuralSet — un framework Python qui combine fMRI, M/EEG, spikes et embeddings de Hugging Face dans un seul pipeline PyTor