Together AI expande plataforma: treinamento de modelos com 100B+ parâmetros
A Together AI expandiu sua plataforma de fine-tuning. Agora há suporte para modelos de 100B+: DeepSeek-R1, Qwen3-235B e Llama 4. Foram adicionados suporte a co
Processado por IA de Together AI Blog; editado por Hamidun News
A plataforma de fine-tuning da Together AI recebeu uma atualização significativa. Agora os desenvolvedores podem treinar os maiores modelos de código aberto — com centenas de bilhões de parâmetros.
Modelos gigantes em treinamento
Em 2025, surgiram muitos modelos com 100+ bilhões de parâmetros. DeepSeek-R1, Qwen3-235B e Llama 4 Maverick apresentam resultados próximos aos melhores modelos proprietários em algumas tarefas. O fine-tuning permite ajustar esses gigantes para tarefas específicas da empresa — mas antes isso era complexo, custoso e exigia experiência profunda em engenharia de ML. A Together AI otimizou a arquitetura de sua plataforma para tornar o treinamento de modelos grandes simples e acessível em termos de preço. A empresa adicionou suporte para as versões mais recentes dos maiores modelos:
- DeepSeek: V3, R1 e suas versões base
- Qwen: Qwen3-235B e Qwen3-Coder-480B com contexto de até 32K tokens
- Meta Llama: Llama 4 Scout e Llama 4 Maverick
- OpenAI: gpt-oss-120b como piloto
Suporte padrão: contexto de 16K tokens para SFT (Supervised Fine-Tuning) e 8K para DPO (Direct Preference Optimization). Alguns modelos recebem contextos maiores. Após a conclusão do treinamento, o desenvolvedor pode implantar um Dedicated Endpoint para inferência ou baixar checkpoints intermediários para análise.
Contextos expandidos para treinamento
Documentos longos, grandes bases de código, cadeias de raciocínio de agentes de IA — tudo isso exige um modelo que compreenda contextos expandidos. O problema: se os exemplos de treinamento forem mais curtos do que as tarefas reais, o modelo pode se perder em produção. A Together AI adicionou suporte a contextos grandes diretamente no processo de treinamento. Isso elimina a incompatibilidade entre treinamento e implantação. Por exemplo, o Qwen3-235B agora pode ser treinado com contexto de até 32K tokens para tarefas de SFT. Isso é especialmente útil para treinar modelos na edição de arquivos grandes, redação de documentação e análise de correspondências longas.
Integração e novos métodos de treinamento
A plataforma melhorou a integração com Hugging Face Hub — o maior repositório de modelos e conjuntos de dados abertos. Agora os desenvolvedores podem carregar modelos do Hub com um clique, executar o treinamento e fazer upload do resultado novamente. Isso reduz o tempo de ideia a modelo treinado pronto. Também foram adicionadas novas opções de DPO — métodos de treinamento que tornam os modelos mais responsivos às preferências humanas. O DPO requer menos dados do que abordagens antigas e frequentemente produz melhores resultados em tarefas do mundo real.
O que isso significa
O treinamento de grandes modelos está evoluindo de uma tarefa exclusiva e custosa para uma ferramenta em massa. Startups, laboratórios de pesquisa e empresas de médio porte agora podem adaptar DeepSeek, Qwen ou Llama para suas tarefas, sem exigir orçamentos de milhões de dólares. Isso acelera a adoção de IA e reduz a dependência de modelos fechados. *Meta foi designada como organização extremista e proibida na Rússia.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.