MarkTechPost

Stanford presentó OpenJarvis — una stack de agentes de AI locales con memoria y aprendizaje
Stanford presentó OpenJarvis — una plataforma para agentes de AI personales que funcionan directamente en el dispositivo, usan memoria y her

Harry Tan lanzó gstack — un sistema de workflow para Claude Code con QA, revisión y release
Harry Tan liberó gstack como open source — un conjunto de modos para Claude Code que separa planificación, revisión, QA y release en comando

Zhipu AI lanza GLM-OCR, un modelo OCR compacto de 0,9 mil millones de parámetros para documentos
Zhipu AI y la Universidad de Tsinghua presentaron GLM-OCR, un modelo OCR multimodal de 0,9 mil millones de parámetros que analiza documentos

LangChain lanzó Deep Agents para agentes de AI de varios pasos con memoria y aislamiento
LangChain lanzó Deep Agents, una biblioteca para agentes de AI que necesitan planificación, memoria a largo plazo, contexto de archivos y ai

IBM lanzó Granite 4.0 1B Speech — un modelo de voz multilingüe compacto para edge AI
IBM presentó Granite 4.0 1B Speech, un modelo ligero para reconocimiento y traducción de voz, diseñado para un despliegue rápido en entornos

Moonshot AI presentó Attention Residuals — una alternativa a las conexiones residuales en transformers
Moonshot AI propuso Attention Residuals, un reemplazo de las conexiones residuales estándar en transformers, donde la capa elige por sí mism

Mistral lanzó Small 4 — un modelo MoE de 119 mil millones de parámetros para reasoning, código y multimodalidad
El nuevo Mistral Small 4 combina instruct, reasoning, código y manejo de imágenes en un único modelo MoE open-source de 119 mil millones de

Google lanzó WAXAL, un conjunto de datos abierto de habla para lenguas africanas
Google hizo público WAXAL, un gran corpus de habla para lenguas africanas que debería acelerar el reconocimiento y la síntesis de voz allí d

Nvidia abrió el código de OpenShell, un entorno seguro para agentes autónomos de AI
Nvidia lanzó OpenShell como open source: es un entorno con sandboxes, políticas de acceso y enrutamiento privado para que los agentes autóno

Baidu lanza Qianfan-OCR — un modelo 4B para el reconocimiento y la comprensión de documentos
Baidu presentó Qianfan-OCR, un modelo 4B unificado que analiza la estructura del documento, reconoce texto y, bajo demanda, extrae tablas o

MarkTechPost mostró cómo construir un sistema LLM con autoevaluación, confianza y búsqueda web
MarkTechPost presentó un esquema práctico de uncertainty-aware LLM: el modelo primero responde y estima su confianza, luego se verifica a sí

GitAgent propone un formato unificado para agentes de AI en LangChain, AutoGen y Claude Code
GitAgent propone almacenar la lógica, la memoria y las reglas de un agente de AI en un repositorio Git y luego exportar ese mismo agente a L

Google lanza colab-mcp: cómo los agentes automatizan notebooks Colab en producción
Google presentó un servidor open-source colab-mcp para gestionar notebooks Colab vía MCP: los agentes pueden añadir celdas, ejecutar código

Yann LeCun presenta LeWorldModel — Modelo JEPA sin colapso de representaciones a partir de píxeles
El equipo de Yann LeCun presentó LeWorldModel — un world model que aprende directamente de píxeles con dos funciones de pérdida, evita el co

HKUDS Presenta OpenSpace en Detalle — Motor de Auto-Evolución de Habilidades para Agentes IA
HKUDS demostró cómo OpenSpace transforma agentes IA en sistemas autoaprendibles: el motor preserva habilidades después de cada tarea, las re

Nvidia presentó PivotRL — un framework para agentes de IA con ahorro 4x en pasos de rollout
Nvidia presentó PivotRL — un enfoque para ajuste fino de agentes de IA que preserva calidad fuera del dominio de entrenamiento y logra preci

Google presenta TurboQuant: compresión de caché KV 6x para LLMs sin pérdida de precisión
Google Research presentó TurboQuant — un algoritmo que comprime la caché KV de grandes modelos de lenguaje un mínimo de seis veces y acelera

MolmoWeb-4B de Ai2: Un agente web que ve sitios como humanos, sin parsing de HTML
Ai2 lanzó MolmoWeb-4B — un agente web multimodal de código abierto que controla un navegador usando solo capturas de pantalla, sin acceso a

Tencent abre el código de Covo-Audio — modelo 7B para diálogos de voz y razonamiento de audio
Tencent AI Lab ha publicado en código abierto Covo-Audio — un modelo de audio 7B que acepta habla continua, responde con voz y se orienta a

Qwen3.5: Ejecutar Modelos de Reasoning en Formato GGUF y 4-bits a través de Colab
Se presenta un pipeline Colab para ejecutar modelos Qwen3.5 de reasoning, destilados en estilo Claude: con una configuración puedes cambiar

Google Lanza Gemini 3.1 Flash Live para Agentes IA por Voz y Diálogo Multimodal
Google abrió acceso de vista previa a Gemini 3.1 Flash Live — un modelo para agentes IA de voz y visuales con baja latencia, soporte de herr

IWE y OpenAI: Cómo Convertir Notas en Markdown en un Grafo de Conocimiento para Agentes de IA
Usando IWE como ejemplo, mostramos cómo construir un grafo de conocimiento local a partir de markdown, conectar OpenAI function calling y co

Google explicó la diferencia entre Google-Agent y Googlebot para acceso e indexación de IA
Google describió cómo el nuevo Google-Agent se diferencia de Googlebot: el primero realiza acciones en el sitio a solicitud del usuario, el

Investigadores afiliados a Amazon presentaron A-Evolve para la evolución automática de agentes de IA
Investigadores afiliados a Amazon presentaron A-Evolve — un sistema que automatiza el desarrollo de agentes de IA y reemplaza la sintonizaci

Agent-Infra Presenta AIO Sandbox — Entorno Unificado para Agentes IA con Navegador y Shell
Agent-Infra lanzó AIO Sandbox de código abierto — un entorno containerizado donde navegador, shell, capa de archivo compartido y MCP están i

Cursor lanza SDK TypeScript para coding-agents con sandboxes en nube y facturación por tokens
Cursor abrió la versión beta pública de su SDK TypeScript: ahora los desarrolladores pueden ejecutar coding-agents localmente, en la nube o

Alibaba lanza Qwen3.5-Omni — modelo multimodal nativo para texto, audio y vídeo
Alibaba ha presentado Qwen3.5-Omni — un modelo omnimodal nativo que entiende texto, imágenes, audio y vídeo en una única arquitectura y pued

OpenAI Lanzó Privacy Filter: Modelo Abierto para Eliminar Datos Personales
OpenAI publicó Privacy Filter — un modelo de código abierto para la detección y sustitución automática de datos personales, funcionando dire

OpenAI y Promptflow: cómo construir pipelines de LLM con trazabilidad y evaluación de calidad
La guía muestra cómo construir un pipeline de LLM en Google Colab utilizando Promptflow, Prompty y OpenAI con configuración segura de claves

Meta FAIR Lanza NeuralSet — Paquete Python para Conectar Datos Neurales y Modelos de IA
Meta FAIR abrió NeuralSet — un framework Python que combina fMRI, M/EEG, spikes e embeddings de Hugging Face en un único pipeline PyTorch pa