Últimas publicações

AllenAI Lança olmo-eval — Uma Plataforma para Avaliar LLMs Durante o Treinamento
AllenAI lançou olmo-eval, um kit de ferramentas aberto para avaliação contínua de modelos de linguagem durante todo o ciclo de treinamento — checkpoint por checkpoint.

Cohere apresenta North Mini Code — modelo para desenvolvedores e agentes de IA
Cohere lançou North Mini Code — um modelo de 30 bilhões de parâmetros, especialmente treinado em programação e funcionamento com agentes de IA. O modelo é gratuito e acessível a todos.

Agentes de voz não estão prontos para clientes bilíngues. Pesquisa ServiceNow-AI
Agentes de voz têm desempenho ruim com clientes bilíngues. Isso foi demonstrado por uma pesquisa da equipe ServiceNow-AI, que testou sete sistemas populares de reconhecimento de fala em exemplos de…

Como acelerar modelos PyTorch: guia prático do torch.profiler
Hugging Face falou sobre torch.profiler — ferramenta integrada do PyTorch para análise de desempenho. Ela ajuda a encontrar gargalos no treinamento e inferência de modelos.

Hugging Face ensinou TRL a entregar um trilhão de parâmetros através de delta-pesos
Hugging Face adicionou Delta Weight Sync ao TRL — técnica que envia apenas mudanças de pesos em vez de arquivos completos, reduzindo dados em centenas de vezes no treinamento de modelos gigantes.

Reachy Mini aprendeu a conversar localmente sem nuvem
O robô humanóide Reachy Mini agora pode executar toda a pilha de reconhecimento de fala localmente, sem nuvem e API, graças aos modelos abertos do Hugging Face.

IBM e Artificial Analysis criam benchmark: agentes de IA fracassam em tarefas de TI
Grandes modelos de linguagem obtiveram menos de 50% no novo benchmark ITBench-AA para avaliar a capacidade de agentes de IA em resolver tarefas corporativas de TI. Isso mostra que a automação completa do trabalho em TI p

NVIDIA Nemotron: modelos de difusão geram texto 6 vezes mais rápido
A NVIDIA apresentou Nemotron-Labs Diffusion — os primeiros modelos de linguagem que geram texto em paralelo em vez de sequencialmente. No modo de autoespeculação, funcionam 6× mais rápido que modelos comuns graças à abor

Como um modelo pequeno superou GPT-5 e Claude Opus no reconhecimento óptico de caracteres em português
A Dharma AI treinou um modelo de 3 bilhões de parâmetros que superou todos os modelos frontier em reconhecimento de texto em português — 52 vezes mais barato.

Hugging Face lançou o Open Agent Leaderboard para avaliar agentes de AI
A Hugging Face apresentou um benchmark aberto para comparar sistemas completos de agentes de AI. O resultado mostrou que a arquitetura do agente importa mais do que o modelo escolhido.

PaddleOCR 3.5 recebe suporte a Transformers do Hugging Face
PaddleOCR foi atualizado com suporte completo a Transformers do Hugging Face como backend de inferência. Agora o reconhecimento de texto e análise de documentos funcionam em ambiente PyTorch.

NVIDIA mostrou uma forma eficiente de treinar Cosmos em vídeos de robôs através de LoRA
A NVIDIA lançou um guia para fine-tuning do Cosmos Predict 2.5 via LoRA/DoRA — método parametricamente eficiente para adaptar modelo de vídeo para geração de vídeos robóticos em 17 horas em um único GPU.

Ettin Reranker da Hugging Face: 6 modelos para reranking preciso de busca
A Hugging Face lançou 6 rerranqueadores Ettin baseados em ModernBERT com precisão de ponta e velocidade graças a Flash Attention 2 e otimização de sequências.

OlmoEarth v1.1: Allen AI lançou modelos de satélite 3 vezes mais baratos
Allen AI apresentou uma versão mais eficiente de modelos para análise de imagens de satélite, reduzindo custos computacionais em 3 vezes mantendo a qualidade.

Como o modelo da Allen AI aprendeu a descobrir sozinho a especialização dos especialistas
A Allen AI apresentou o EMO, um modelo baseado em uma mistura de especialistas que desenvolve naturalmente especialização por áreas (saúde, política, cinema) sem treinamento explícito nessas categorias.

CyberSecQwen-4B: como um modelo pequeno se tornou especialista em vulnerabilidades
O modelo especializado de cibersegurança com 4 bilhões de parâmetros supera concorrentes de uso geral na análise de vulnerabilidades e roda localmente em hardware pessoal sem serviços em nuvem.

OncoAgent: sistema de AI para detecção precoce do câncer com base em dados privados de pacientes
Como um algoritmo de aprendizado de máquina ajuda médicos a tomar decisões sobre o diagnóstico de câncer sem comprometer a confidencialidade dos pacientes

Hugging Face acelerou a inferência de LLM em 22% com batching assíncrono
O processamento paralelo de CPU e GPU, em vez do sequencial, eliminou 24% do tempo ocioso da GPU e acelerou a geração de tokens em quase um quarto sem mudar o modelo.

IBM lançou Granite Embedding R2 — um modelo multilíngue para busca semântica
A IBM apresentou Granite Embedding R2, um modelo multilíngue aberto para busca semântica com suporte a contexto de 32K e melhor desempenho da categoria entre modelos sub-100M.

H Company lançou Holotron-12B — um modelo para agentes com aumento de velocidade de 2x
A H Company publicou Holotron-12B no Hugging Face: o modelo multimodal para agentes de AI entrega mais do que o dobro de throughput em tarefas de uso de interfaces em um único H100.

NVIDIA apresentou SPEED-Bench — um benchmark unificado para speculative decoding
A NVIDIA publicou SPEED-Bench, um conjunto de dados e um framework de medição que compara speculative decoding em cargas reais, contextos longos e diferentes motores de inferência.

IBM lançou Mellea 0.4.0 e Granite Libraries para pipelines de AI verificáveis
A IBM Research atualizou o framework de código aberto Mellea para a versão 0.4.0 e lançou três Granite Libraries para fluxos de trabalho de AI estruturados, verificáveis e seguros.

NVIDIA mostrou como fazer fine-tuning de um modelo de embedding para um domínio específico em um dia
NVIDIA e Hugging Face publicaram um passo a passo que transforma, em poucas horas, um modelo de embedding base em uma busca especializada em documentos internos.

ServiceNow apresentou EVA — um novo framework para avaliar agentes de voz com AI
A ServiceNow lançou o EVA — um sistema que avalia agentes de voz com AI não só pelo sucesso na tarefa, mas também pela qualidade do diálogo, da concisão das respostas ao tempo das falas.

IBM lança Granite 4.0 3B Vision para extrair dados de documentos e gráficos
IBM apresentou Granite 4.0 3B Vision, um modelo multimodal compacto para extrair tabelas, gráficos e campos-chave de documentos, que pode ser integrado a pipelines corporativos com Docling.

H Company apresenta Holo3 — um agente de AI para usar o computador com pontuação recorde no OSWorld-Verified
A H Company lançou o Holo3, um modelo para usar o computador que alcançou 78,85% no OSWorld-Verified e foi treinado com cenários corporativos sintéticos.

Google lançou o Gemma 4 no Hugging Face: modelos multimodais para execução local
O Google DeepMind abriu a família Gemma 4 no Hugging Face: quatro modelos multimodais com licença Apache 2.0, contexto de até 256K e execução do celular à estação de trabalho.

Hugging Face adicionou gradio.Server: agora é possível conectar um frontend próprio ao backend do Gradio
O novo gradio.Server da Hugging Face transforma o Gradio em uma camada de backend para React, Svelte e HTML/JS puro, mantendo filas de requisições, ZeroGPU e compatibilidade com Spaces.

Hugging Face transfere o Safetensors para a PyTorch Foundation para uma governança neutra do formato
A Hugging Face anunciou que o Safetensors passou a ser um projeto da PyTorch Foundation: não há mudanças incompatíveis para os usuários, enquanto o desenvolvimento do formato passa para um modelo de governança neutra.

Overworld lançou o Waypoint-1.5: mundos interativos em 720p para GPUs de consumo
A Overworld lançou o Waypoint-1.5, uma world model para execução local em GPUs de consumo: até 720p e 60 FPS, além de uma versão 360p mais leve para uma gama mais ampla de PCs e notebooks.