Editora · verificada pela redação

Together AI Blog

Fonte de notícias de IA. Os artigos são selecionados e adaptados pela redação do Hamidun News.

21 artigos no Hamidun·Último: 22 de julho· Ativo·together.ai ↗

Últimas publicações

Together AI leva nove trabalhos de pesquisa para a conferência ICML 2026 em Seul

Together AI anunciou que nove de seus trabalhos de pesquisa foram aceitos em ICML 2026 em Seul — as apresentações cobrem toda a pilha de infraestrutura de IA, de agentes a kernels de GPU.

17 de jul. de 2026·2 min

LLMTogether AI Blog

Kimi K2.7 Code versus Claude Fable 5: páginas de destino 94% mais baratas

Together AI comparou Kimi K2.7 Code e Claude Fable 5 em 12 páginas de destino: Kimi custou 94% menos e mal perdeu em qualidade de resultado.

17 de jul. de 2026·2 min

LLMTogether AI Blog

Mamba-3: alternativa aos transformers com complexidade linear

Pesquisadores da CMU e Together AI apresentaram Mamba-3 — uma nova arquitetura baseada em SSM otimizada para geração rápida de texto.

16 de jul. de 2026·3 min

LLMTogether AI Blog

Together AI lança inferência garantida para modelos abertos com SLA de 99%

A Together AI apresentou o Provisioned Throughput — capacidade de inferência reservada para MiniMax M3 e GLM-5.2, com SLA de 99% de uptime e economia de até 90% em comparação com APIs fechadas.

8 de jul. de 2026·3 min

LLMTogether AI Blog

Together AI levanta $800M em rodada Series C para desenvolver IA open-source

Together AI fechou sua rodada Series C em $800M com participação da NVIDIA, Aramco Ventures e Vista Equity — a plataforma aposta em modelos open-source que são 6–20 vezes mais baratos que alternativas proprietárias.

4 de jul. de 2026·2 min

LLMTogether AI Blog

Together AI superou o TensorRT-LLM em 31% em benchmarks para agentes de código

O Together Inference Engine registrou 31% mais tokens por segundo e reduziu o TTFT pela metade em carga de pico — o primeiro teste justo para agentes em produção.

30 de jun. de 2026·2 min

LLMTogether AI Blog

Together AI na NVIDIA GTC 2026: Dynamo, modelos multiagentes e AI de voz

Na GTC 2026, a Together AI apresentou a integração com NVIDIA Dynamo 1.0, lançou a stack NemoClaw para agentes e disponibilizou o modelo Nemotron 3 Super de 120B.

30 de jun. de 2026·2 min

LLMTogether AI Blog

Together AI lança MiniMax M3 com contexto de 1 milhão de tokens e suporte multimodal

A Together AI tornou-se parceira da MiniMax para lançar o M3, um modelo principal com suporte a 1 milhão de tokens de contexto, processamento nativo de imagens e aceleração de inferência de até 125%.

30 de jun. de 2026·2 min

LLMTogether AI Blog

Together AI recebeu a certificação ISO 27001:2022 para cargas de trabalho de AI corporativas

Together AI passou por uma auditoria internacional ISO 27001:2022 — uma verificação independente confirmou a maturidade do seu sistema de segurança da informação para clientes corporativos.

30 de jun. de 2026·2 min

LLMTogether AI Blog

Together AI: GPT-5.5, Gemini e Opus não conseguem escrever kernels multi-GPU rápidos

O novo benchmark ParallelKernelBench mostrou que os melhores modelos de linguagem resolvem menos de um terço das tarefas de geração de kernels CUDA para sistemas multiprocessadores.

30 de jun. de 2026·3 min

LLMTogether AI Blog

Together AI apresenta ATLAS: especulador que acelera LLM em 4 vezes

A nova tecnologia de especulador com aprendizado adaptativo ATLAS da Together AI acelera inferência em LLM em 4 vezes sem configuração manual — adapta-se automaticamente à carga de trabalho do usuário.

21 de mai. de 2026·2 min

LLMTogether AI Blog

Together AI lançou os clusters de GPU autossuficientes Instant Clusters nas NVIDIA H100 e B200

A Together AI lançou o Instant Clusters — clusters de GPU autossuficientes baseados nas NVIDIA H100 e B200, que são implantados em minutos e prontos para produção sem longos processos de aprovação.

21 de mai. de 2026·3 min

LLMTogether AI Blog

Together AI multiplicou por 3.000 os limites da Batch Inference API e reduziu os preços em 50%

A Batch Inference API agora processa 30 bilhões de tokens (em vez de 10 milhões) e custa metade do preço da real-time API. Ela oferece suporte a todos os 40+ modelos da plataforma.

21 de mai. de 2026·2 min

LLMTogether AI Blog

Together AI expande plataforma: treinamento de modelos com 100B+ parâmetros

A plataforma de fine-tuning da Together AI agora treina os modelos de código aberto mais poderosos — DeepSeek-R1, Qwen3-235B e Llama 4 — com suporte a contextos expandidos e integração com Hugging Face.

21 de mai. de 2026·3 min

LLMTogether AI Blog

FlashAttention-3 acelerará transformers duas vezes com 75% de utilização de GPU

Together AI lançou FlashAttention-3 — um algoritmo que acelera transformers de 1,5 a 2 vezes e utiliza 75% do desempenho da GPU H100, mantendo baixa precisão FP8.

21 de mai. de 2026·2 min

LLMTogether AI Blog

Together AI alcança 90% mais velocidade no treinamento com NVIDIA Blackwell

A Together AI anunciou acesso a clusters de GPU NVIDIA Blackwell com otimizações próprias, alcançando 90% mais velocidade no treinamento do Llama 70B e 15.264 tokens por segundo por GPU.

21 de mai. de 2026·3 min

LLMTogether AI Blog

ThunderKittens da Together AI: nova linguagem para kernels GPU eficientes

A Together AI apresentou o ThunderKittens — uma linguagem de programação para kernels GPU que se escreve como PyTorch, mas funciona como CUDA puro. No H100, o código roda até mais rápido que o FlashAttention2 clássico.

21 de mai. de 2026·3 min

LLMTogether AI Blog

DSGym: framework para treinamento de agentes de data science com 90+ tarefas científicas

Together AI lançou DSGym, um framework unificado para treinar agentes LLM em data science, integrando 90+ tarefas de bioinformática e 92 competições Kaggle com resultados SOTA.

21 de mai. de 2026·2 min

LLMTogether AI Blog

Together AI explicou por que a nuvem para IA é uma arquitetura totalmente diferente

Startups de IA como Cursor iteram semanalmente e consomem GPU como aplicações web de 2012. Together AI descobriu qual deve ser a nuvem para acompanhar a velocidade das empresas nativas de IA.

21 de mai. de 2026·2 min

LLMTogether AI Blog

Together AI: como as otimizações de kernel fecham a lacuna entre modelos e GPU

A equipe de otimizações de kernel da Together AI criou uma tecnologia que acelera o desempenho de GPUs em 2-3x. Em uma semana, adaptaram kernels para as novas GPUs Blackwell — trabalho que a NVIDIA levou um ano para faze

21 de mai. de 2026·3 min

LLMTogether AI Blog

FlashAttention-4: como Together AI acelerou atenção na GPU Blackwell

Together AI apresentou FlashAttention-4 — uma otimização do algoritmo de atenção para GPU Blackwell, que atinge 1605 TFLOPs/s e funciona 2.7 vezes mais rápido que Triton.

21 de mai. de 2026·2 min