MarkTechPost

Stanford apresentou o OpenJarvis — uma stack de agentes de AI locais com memória e aprendizado
Stanford apresentou o OpenJarvis — uma plataforma para agentes de AI pessoais que rodam diretamente no dispositivo, usam memória e ferrament

Harry Tan lançou o gstack — um sistema de workflow para Claude Code com QA, revisão e release
Harry Tan abriu o código-fonte do gstack — um conjunto de modos para Claude Code que separa planejamento, revisão, QA e release em comandos

Zhipu AI lança o GLM-OCR, um modelo OCR compacto de 0,9 bilhão de parâmetros para documentos
A Zhipu AI e a Universidade Tsinghua apresentaram o GLM-OCR, um modelo OCR multimodal de 0,9 bilhão de parâmetros que analisa documentos com

LangChain lançou Deep Agents para agentes de AI em várias etapas com memória e isolamento
LangChain lançou Deep Agents, uma biblioteca para agentes de AI que precisam de planejamento, memória de longo prazo, contexto de arquivos e

IBM lançou Granite 4.0 1B Speech — um modelo de fala multilíngue compacto para edge AI
A IBM apresentou o Granite 4.0 1B Speech, um modelo leve para reconhecimento e tradução de fala, projetado para implantação rápida em cenári

Moonshot AI apresentou Attention Residuals — uma alternativa às conexões residuais em transformers
A Moonshot AI propôs Attention Residuals, uma substituição para as conexões residuais padrão em transformers, na qual a camada escolhe sozin

Mistral lançou Small 4 — um modelo MoE de 119 bilhões de parâmetros para reasoning, código e multimodalidade
O novo Mistral Small 4 combina instruct, reasoning, código e imagens em um único modelo MoE open-source de 119 bilhões de parâmetros com con

Google lançou o WAXAL, um conjunto de dados de fala aberto para línguas africanas
Google tornou público o WAXAL, um grande corpus de fala para línguas africanas que deve acelerar o reconhecimento e a síntese de fala onde a

Nvidia abriu o código do OpenShell, um ambiente seguro para agentes autônomos de AI
A Nvidia lançou o OpenShell em open source: é um ambiente com sandboxes, políticas de acesso e roteamento privado para que agentes autônomos

Baidu lança Qianfan-OCR — um modelo 4B para reconhecimento e compreensão de documentos
A Baidu apresentou o Qianfan-OCR, um modelo 4B unificado que analisa a estrutura do documento, reconhece texto e, sob demanda, extrai tabela

MarkTechPost mostrou como montar um sistema LLM com autoavaliação, confiança e busca na web
MarkTechPost apresentou um esquema prático de uncertainty-aware LLM: o modelo primeiro responde e estima sua confiança, depois se revisa e a

GitAgent propõe um formato unificado para agentes de AI em LangChain, AutoGen e Claude Code
GitAgent propõe armazenar a lógica, a memória e as regras de um agente de AI em um repositório Git e depois exportar o mesmo agente para Lan

Google lança colab-mcp: como agentes automatizam notebooks Colab em produção
Google apresentou um servidor open-source colab-mcp para gerenciar notebooks Colab via MCP: agentes podem adicionar células, executar código

Yann LeCun apresenta LeWorldModel — Modelo JEPA sem colapso de representações a partir de pixels
A equipe de Yann LeCun apresentou LeWorldModel — um world model que aprende diretamente de pixels com duas funções de perda, evita colapso d

HKUDS Apresenta OpenSpace em Detalhes — Motor de Auto-Evolução de Habilidades para Agentes IA
HKUDS demonstrou como OpenSpace transforma agentes IA em sistemas autoaprendizáveis: o motor preserva habilidades após cada tarefa, reutiliz

Nvidia apresentou PivotRL — um framework para agentes de IA com economia 4x em passos de rollout
Nvidia apresentou PivotRL — uma abordagem de ajuste fino para agentes de IA que preserva qualidade fora do domínio de treinamento e atinge p

Google apresenta TurboQuant: compressão de cache KV de 6x para LLMs sem perda de precisão
Google Research apresentou TurboQuant — um algoritmo que comprime o cache KV de grandes modelos de linguagem em pelo menos seis vezes e acel

MolmoWeb-4B da Ai2: Um agente web que vê sites como humanos, sem parsing de HTML
Ai2 lançou MolmoWeb-4B — um agente web multimodal de código aberto que controla um navegador apenas com screenshots, sem acesso a HTML ou ár

Tencent abre o código do Covo-Audio — modelo 7B para diálogos de voz e raciocínio áudio
O Tencent AI Lab abriu o código aberto do Covo-Audio — um modelo de áudio 7B que aceita fala contínua, responde com voz e visa diálogos e ra

Qwen3.5: Executando Modelos de Reasoning em Formato GGUF e 4-bits via Colab
Um pipeline Colab é apresentado para executar modelos Qwen3.5 de reasoning, destilados no estilo Claude: com uma configuração você pode alte

Google Lança Gemini 3.1 Flash Live para Agentes IA por Voz e Diálogo Multimodal
Google abriu acesso de prévia para o Gemini 3.1 Flash Live — um modelo para agentes IA de voz e visuais com baixa latência, suporte a ferram

IWE e OpenAI: Como Transformar Notas em Markdown em um Grafo de Conhecimento para Agentes de IA
Usando IWE como exemplo, mostramos como construir um grafo de conhecimento local a partir de markdown, conectar OpenAI function calling e co

Google explicou a diferença entre Google-Agent e Googlebot para acesso e indexação por IA
Google descreveu como o novo Google-Agent se diferencia do Googlebot: o primeiro executa ações no site a pedido do usuário, o segundo rastre

Pesquisadores afiliados à Amazon apresentaram A-Evolve para evolução automática de agentes de IA
Pesquisadores afiliados à Amazon apresentaram A-Evolve — um sistema que automatiza o desenvolvimento de agentes de IA e substitui a sintoniz

Agent-Infra Apresenta AIO Sandbox — Ambiente Unificado para Agentes IA com Navegador e Shell
Agent-Infra lançou AIO Sandbox de código aberto — um ambiente containerizado onde navegador, shell, camada de arquivo compartilhado e MCP es

Cursor lança SDK TypeScript para coding-agents com sandboxes em nuvem e cobrança por tokens
Cursor abriu a versão beta pública do SDK TypeScript: agora desenvolvedores podem executar coding-agents localmente, na nuvem ou em seus pró

Alibaba lança Qwen3.5-Omni — modelo multimodal nativo para texto, áudio e vídeo
A Alibaba apresentou Qwen3.5-Omni — um modelo omnimodal nativo que compreende texto, imagens, áudio e vídeo em uma única arquitetura e conse

OpenAI Lançou Privacy Filter: Modelo Aberto para Remover Dados Pessoais
OpenAI publicou Privacy Filter — um modelo open-source para detecção e substituição automática de dados pessoais, funcionando diretamente no

OpenAI e Promptflow: Como Construir um Pipeline LLM com Rastreamento e Avaliação de Qualidade
O guia mostra como construir um pipeline LLM no Google Colab usando Promptflow, Prompty e OpenAI com configuração segura de chaves, rastream

Meta FAIR Lança NeuralSet — Pacote Python para Conectar Dados Neurais e Modelos de IA
Meta FAIR abriu NeuralSet — um framework Python que combina fMRI, M/EEG, spikes e embeddings do Hugging Face em um único pipeline PyTorch pa