Últimas publicações

Together AI apresenta ATLAS: especulador que acelera LLM em 4 vezes
A nova tecnologia de especulador com aprendizado adaptativo ATLAS da Together AI acelera inferência em LLM em 4 vezes sem configuração manual — adapta-se automaticamente à carga de trabalho do usuário.

Together AI lançou os clusters de GPU autossuficientes Instant Clusters nas NVIDIA H100 e B200
A Together AI lançou o Instant Clusters — clusters de GPU autossuficientes baseados nas NVIDIA H100 e B200, que são implantados em minutos e prontos para produção sem longos processos de aprovação.

Together AI multiplicou por 3.000 os limites da Batch Inference API e reduziu os preços em 50%
A Batch Inference API agora processa 30 bilhões de tokens (em vez de 10 milhões) e custa metade do preço da real-time API. Ela oferece suporte a todos os 40+ modelos da plataforma.

Together AI expande plataforma: treinamento de modelos com 100B+ parâmetros
A plataforma de fine-tuning da Together AI agora treina os modelos de código aberto mais poderosos — DeepSeek-R1, Qwen3-235B e Llama 4 — com suporte a contextos expandidos e integração com Hugging Face.

FlashAttention-3 acelerará transformers duas vezes com 75% de utilização de GPU
Together AI lançou FlashAttention-3 — um algoritmo que acelera transformers de 1,5 a 2 vezes e utiliza 75% do desempenho da GPU H100, mantendo baixa precisão FP8.

Together AI alcança 90% mais velocidade no treinamento com NVIDIA Blackwell
A Together AI anunciou acesso a clusters de GPU NVIDIA Blackwell com otimizações próprias, alcançando 90% mais velocidade no treinamento do Llama 70B e 15.264 tokens por segundo por GPU.

ThunderKittens da Together AI: nova linguagem para kernels GPU eficientes
A Together AI apresentou o ThunderKittens — uma linguagem de programação para kernels GPU que se escreve como PyTorch, mas funciona como CUDA puro. No H100, o código roda até mais rápido que o FlashAttention2 clássico.

DSGym: framework para treinamento de agentes de data science com 90+ tarefas científicas
Together AI lançou DSGym, um framework unificado para treinar agentes LLM em data science, integrando 90+ tarefas de bioinformática e 92 competições Kaggle com resultados SOTA.

Together AI explicou por que a nuvem para IA é uma arquitetura totalmente diferente
Startups de IA como Cursor iteram semanalmente e consomem GPU como aplicações web de 2012. Together AI descobriu qual deve ser a nuvem para acompanhar a velocidade das empresas nativas de IA.

Together AI: como as otimizações de kernel fecham a lacuna entre modelos e GPU
A equipe de otimizações de kernel da Together AI criou uma tecnologia que acelera o desempenho de GPUs em 2-3x. Em uma semana, adaptaram kernels para as novas GPUs Blackwell — trabalho que a NVIDIA levou um ano para faze

FlashAttention-4: como Together AI acelerou atenção na GPU Blackwell
Together AI apresentou FlashAttention-4 — uma otimização do algoritmo de atenção para GPU Blackwell, que atinge 1605 TFLOPs/s e funciona 2.7 vezes mais rápido que Triton.