Editora · verificada pela redação

Together AI Blog

Fonte de notícias de IA. Os artigos são selecionados e adaptados pela redação do Hamidun News.

11 artigos no Hamidun·Último: 21 de maio· Ativo·together.ai ↗

Últimas publicações

Together AI apresenta ATLAS: especulador que acelera LLM em 4 vezes
LLMTogether AI Blog

Together AI apresenta ATLAS: especulador que acelera LLM em 4 vezes

A nova tecnologia de especulador com aprendizado adaptativo ATLAS da Together AI acelera inferência em LLM em 4 vezes sem configuração manual — adapta-se automaticamente à carga de trabalho do usuário.

2026-05-21·2 min
Together AI lançou os clusters de GPU autossuficientes Instant Clusters nas NVIDIA H100 e B200
LLMTogether AI Blog

Together AI lançou os clusters de GPU autossuficientes Instant Clusters nas NVIDIA H100 e B200

A Together AI lançou o Instant Clusters — clusters de GPU autossuficientes baseados nas NVIDIA H100 e B200, que são implantados em minutos e prontos para produção sem longos processos de aprovação.

2026-05-21·3 min
Together AI multiplicou por 3.000 os limites da Batch Inference API e reduziu os preços em 50%
LLMTogether AI Blog

Together AI multiplicou por 3.000 os limites da Batch Inference API e reduziu os preços em 50%

A Batch Inference API agora processa 30 bilhões de tokens (em vez de 10 milhões) e custa metade do preço da real-time API. Ela oferece suporte a todos os 40+ modelos da plataforma.

2026-05-21·2 min
Together AI expande plataforma: treinamento de modelos com 100B+ parâmetros
LLMTogether AI Blog

Together AI expande plataforma: treinamento de modelos com 100B+ parâmetros

A plataforma de fine-tuning da Together AI agora treina os modelos de código aberto mais poderosos — DeepSeek-R1, Qwen3-235B e Llama 4 — com suporte a contextos expandidos e integração com Hugging Face.

2026-05-21·3 min
FlashAttention-3 acelerará transformers duas vezes com 75% de utilização de GPU
LLMTogether AI Blog

FlashAttention-3 acelerará transformers duas vezes com 75% de utilização de GPU

Together AI lançou FlashAttention-3 — um algoritmo que acelera transformers de 1,5 a 2 vezes e utiliza 75% do desempenho da GPU H100, mantendo baixa precisão FP8.

2026-05-21·2 min
Together AI alcança 90% mais velocidade no treinamento com NVIDIA Blackwell
LLMTogether AI Blog

Together AI alcança 90% mais velocidade no treinamento com NVIDIA Blackwell

A Together AI anunciou acesso a clusters de GPU NVIDIA Blackwell com otimizações próprias, alcançando 90% mais velocidade no treinamento do Llama 70B e 15.264 tokens por segundo por GPU.

2026-05-21·3 min
ThunderKittens da Together AI: nova linguagem para kernels GPU eficientes
LLMTogether AI Blog

ThunderKittens da Together AI: nova linguagem para kernels GPU eficientes

A Together AI apresentou o ThunderKittens — uma linguagem de programação para kernels GPU que se escreve como PyTorch, mas funciona como CUDA puro. No H100, o código roda até mais rápido que o FlashAttention2 clássico.

2026-05-21·3 min
DSGym: framework para treinamento de agentes de data science com 90+ tarefas científicas
LLMTogether AI Blog

DSGym: framework para treinamento de agentes de data science com 90+ tarefas científicas

Together AI lançou DSGym, um framework unificado para treinar agentes LLM em data science, integrando 90+ tarefas de bioinformática e 92 competições Kaggle com resultados SOTA.

2026-05-21·2 min
Together AI explicou por que a nuvem para IA é uma arquitetura totalmente diferente
LLMTogether AI Blog

Together AI explicou por que a nuvem para IA é uma arquitetura totalmente diferente

Startups de IA como Cursor iteram semanalmente e consomem GPU como aplicações web de 2012. Together AI descobriu qual deve ser a nuvem para acompanhar a velocidade das empresas nativas de IA.

2026-05-21·2 min
Together AI: como as otimizações de kernel fecham a lacuna entre modelos e GPU
LLMTogether AI Blog

Together AI: como as otimizações de kernel fecham a lacuna entre modelos e GPU

A equipe de otimizações de kernel da Together AI criou uma tecnologia que acelera o desempenho de GPUs em 2-3x. Em uma semana, adaptaram kernels para as novas GPUs Blackwell — trabalho que a NVIDIA levou um ano para faze

2026-05-21·3 min
FlashAttention-4: como Together AI acelerou atenção na GPU Blackwell
LLMTogether AI Blog

FlashAttention-4: como Together AI acelerou atenção na GPU Blackwell

Together AI apresentou FlashAttention-4 — uma otimização do algoritmo de atenção para GPU Blackwell, que atinge 1605 TFLOPs/s e funciona 2.7 vezes mais rápido que Triton.

2026-05-21·2 min