MarkTechPost
Fuente de noticias de IA. Los artículos son seleccionados y adaptados por la redacción de Hamidun News.
Últimas publicaciones

Baidu lanza Qianfan-OCR — un modelo 4B para el reconocimiento y la comprensión de documentos
Baidu presentó Qianfan-OCR, un modelo 4B unificado que analiza la estructura del documento, reconoce texto y, bajo demanda, extrae tablas o responde preguntas.

MarkTechPost mostró cómo construir un sistema LLM con autoevaluación, confianza y búsqueda web
MarkTechPost presentó un esquema práctico de uncertainty-aware LLM: el modelo primero responde y estima su confianza, luego se verifica a sí mismo y activa la búsqueda web si tiene dudas.

GitAgent propone un formato unificado para agentes de AI en LangChain, AutoGen y Claude Code
GitAgent propone almacenar la lógica, la memoria y las reglas de un agente de AI en un repositorio Git y luego exportar ese mismo agente a LangChain, AutoGen, Claude Code y otros entornos.

Google lanza colab-mcp: cómo los agentes automatizan notebooks Colab en producción
Google presentó un servidor open-source colab-mcp para gestionar notebooks Colab vía MCP: los agentes pueden añadir celdas, ejecutar código y construir workflows resilientes sin rutina manual.

Yann LeCun presenta LeWorldModel — Modelo JEPA sin colapso de representaciones a partir de píxeles
El equipo de Yann LeCun presentó LeWorldModel — un world model que aprende directamente de píxeles con dos funciones de pérdida, evita el colapso de representaciones y planifica hasta 48 veces más rápido que alternativas

HKUDS Presenta OpenSpace en Detalle — Motor de Auto-Evolución de Habilidades para Agentes IA
HKUDS demostró cómo OpenSpace transforma agentes IA en sistemas autoaprendibles: el motor preserva habilidades después de cada tarea, las reutiliza y reduce significativamente el consumo de tokens.

Nvidia presentó PivotRL — un framework para agentes de IA con ahorro 4x en pasos de rollout
Nvidia presentó PivotRL — un enfoque para ajuste fino de agentes de IA que preserva calidad fuera del dominio de entrenamiento y logra precisión comparable a E2E RL con cuatro veces menos pasos de rollout.

Google presenta TurboQuant: compresión de caché KV 6x para LLMs sin pérdida de precisión
Google Research presentó TurboQuant — un algoritmo que comprime la caché KV de grandes modelos de lenguaje un mínimo de seis veces y acelera el cómputo de atención hasta 8 veces sin degradación de calidad.

MolmoWeb-4B de Ai2: Un agente web que ve sitios como humanos, sin parsing de HTML
Ai2 lanzó MolmoWeb-4B — un agente web multimodal de código abierto que controla un navegador usando solo capturas de pantalla, sin acceso a HTML ni árbol DOM.

Tencent abre el código de Covo-Audio — modelo 7B para diálogos de voz y razonamiento de audio
Tencent AI Lab ha publicado en código abierto Covo-Audio — un modelo de audio 7B que acepta habla continua, responde con voz y se orienta a diálogos y razonamiento en tiempo real.

Qwen3.5: Ejecutar Modelos de Reasoning en Formato GGUF y 4-bits a través de Colab
Se presenta un pipeline Colab para ejecutar modelos Qwen3.5 de reasoning, destilados en estilo Claude: con una configuración puedes cambiar entre GGUF de 27B y una versión ligera de 2B de 4-bits.

Google Lanza Gemini 3.1 Flash Live para Agentes IA por Voz y Diálogo Multimodal
Google abrió acceso de vista previa a Gemini 3.1 Flash Live — un modelo para agentes IA de voz y visuales con baja latencia, soporte de herramientas y diálogo más natural.

IWE y OpenAI: Cómo Convertir Notas en Markdown en un Grafo de Conocimiento para Agentes de IA
Usando IWE como ejemplo, mostramos cómo construir un grafo de conocimiento local a partir de markdown, conectar OpenAI function calling y construir un agentic RAG con traversal de relaciones entre notas.

Google explicó la diferencia entre Google-Agent y Googlebot para acceso e indexación de IA
Google describió cómo el nuevo Google-Agent se diferencia de Googlebot: el primero realiza acciones en el sitio a solicitud del usuario, el segundo rastrea automáticamente la web para indexación.

Investigadores afiliados a Amazon presentaron A-Evolve para la evolución automática de agentes de IA
Investigadores afiliados a Amazon presentaron A-Evolve — un sistema que automatiza el desarrollo de agentes de IA y reemplaza la sintonización manual con evolución de estados y autocorrección.

Agent-Infra Presenta AIO Sandbox — Entorno Unificado para Agentes IA con Navegador y Shell
Agent-Infra lanzó AIO Sandbox de código abierto — un entorno containerizado donde navegador, shell, capa de archivo compartido y MCP están integrados en un único runtime para agentes IA.

Cursor lanza SDK TypeScript para coding-agents con sandboxes en nube y facturación por tokens
Cursor abrió la versión beta pública de su SDK TypeScript: ahora los desarrolladores pueden ejecutar coding-agents localmente, en la nube o en sus propios workers—con VMs sandboxed, subagents, hooks y facturación por tok

Alibaba lanza Qwen3.5-Omni — modelo multimodal nativo para texto, audio y vídeo
Alibaba ha presentado Qwen3.5-Omni — un modelo omnimodal nativo que entiende texto, imágenes, audio y vídeo en una única arquitectura y puede responder con voz en tiempo real.

OpenAI Lanzó Privacy Filter: Modelo Abierto para Eliminar Datos Personales
OpenAI publicó Privacy Filter — un modelo de código abierto para la detección y sustitución automática de datos personales, funcionando directamente en el navegador sin infraestructura de servidor.

OpenAI y Promptflow: cómo construir pipelines de LLM con trazabilidad y evaluación de calidad
La guía muestra cómo construir un pipeline de LLM en Google Colab utilizando Promptflow, Prompty y OpenAI con configuración segura de claves, trazabilidad de ejecuciones y evaluación de calidad integrada.

Meta FAIR Lanza NeuralSet — Paquete Python para Conectar Datos Neurales y Modelos de IA
Meta FAIR abrió NeuralSet — un framework Python que combina fMRI, M/EEG, spikes e embeddings de Hugging Face en un único pipeline PyTorch para investigación Neuro-AI.

El equipo Qwen lanzó FlashQLA: aceleración de atención lineal hasta 3× en NVIDIA Hopper
QwenLM lanzó FlashQLA — una biblioteca de kernels CUDA para Gated Delta Network que proporciona ganancia de rendimiento de hasta 3× en GPU NVIDIA Hopper para preentrenamiento e inferencia agentiva.

OpenAI Privacy Filter: Cómo Construir un Pipeline de Producción para Detección y Enmascaramiento de PII
La guía de OpenAI Privacy Filter desglosa un pipeline completo para detectar y enmascarar datos personales — desde la carga del modelo hasta la edición automática de texto.

DeepSeek, Google y Meta: 10 técnicas de compresión de KV-cache en LLM para reducir memoria en inferencia
KV-cache se ha convertido en un consumidor de memoria GPU en grandes LLMs, y una nueva revisión muestra 10 enfoques — desde H2O y SnapKV hasta TurboQuant y MLA de DeepSeek — que reducen el consumo de memoria sin reestruc

Poolside lanzó Laguna XS.2 y M.1 — modelos abiertos para programación con agentes
Poolside presentó dos modelos Laguna para codificación con agentes: el XS.2 abierto se ejecuta localmente, mientras que el más potente M.1 está diseñado para tareas largas con ediciones de código, pruebas y trabajo en te

LlamaIndex ParseBench: cómo probar análisis de documentos a través de Python y Hugging Face
Un análisis práctico muestra cómo construir un pipeline de evaluación de analizadores de documentos usando el dataset LlamaIndex ParseBench: cargar PDFs desde Hugging Face, comparar texto extraído y medir calidad.

smol-audio de Deep-unlearning: Una colección de notebooks de Colab para ajuste fino de modelos de audio
Deep-unlearning lanzó smol-audio — una colección de notebooks compatibles con Colab para ajustar Whisper, Parakeet, Voxtral, Granite Speech y otros modelos de audio.

Top 10 modelos de IA física que controlan robots reales en 2026
En 18 meses, la brecha entre LLMs y la robótica real se ha reducido drásticamente: los modelos de IA física ya funcionan en fábricas, almacenes y laboratorios de investigación.

Hugging Face y Gemma 3 1B: Construyendo un Pipeline de Generación Listo para Producción en Colab
Un análisis de cómo ejecutar Gemma 3 1B Instruct en Colab a través de Hugging Face Transformers: con autorización segura, chat templates y un pipeline de inferencia reproducible.

Z.ai lanza GLM-5V-Turbo — modelo multimodal nativo para programación visual
El laboratorio chino Z.ai ha lanzado GLM-5V-Turbo — un modelo que reconoce diagramas arquitectónicos y capturas de pantalla e inmediatamente genera código funcional para sistemas de ingeniería de agentes.