Um ano depois, Qwen3 mantém o trono em relação preço/qualidade — teste comparativo de modelos
Teste comparativo de LLM: Qwen3-235B de julho de 2025 lidera novamente em relação preço/qualidade. No último ano, Gemini melhorou 40 pontos, DeepSeek V4…
Processado por IA de Habr AI; editado por Hamidun News
Reuni quatro modelos de LLM em um lote para verificar se a pequena Gemma realmente superou a maior nos testes entre sessões. Os resultados foram muito mais interessantes do que esperado.
Confronto Direto: As Gemmas Empatadas
No confronto direto honesto, o resultado inesperado do teste entre sessões foi desmentido: ambas as Gemmas ficaram empatadas, sem diferença. Mas isso era apenas o começo. DeepSeek V4 Flash, que avaliei em 83 pontos, desta vez atingiu 89 — exatamente 6 pontos acima. O modelo estava subestimado, e essa foi a principal descoberta do lote. Superestimar um modelo pode levar à subestimação de toda a hierarquia. Por isso, confrontos diretos honestos em um único contexto permanecem como referência.
Qwen Mantém o Trono há um Ano
Enquanto isso, Qwen3-235B-A22B-2507 (lançamento de 21 de julho de 2025) conquistou novamente o primeiro lugar em relação preço/qualidade. Este foi um checkpoint de julho — quase exatamente um ano atrás. E ele ainda não foi deslocado pelos concorrentes. Muita coisa aconteceu neste ano. Gemini saltou de 57 para 97 pontos — um crescimento de 40 pontos. Retestei o DeepSeek três vezes, obtendo novos resultados cada vez. Novos concorrentes surgiram. Mas Qwen? Simplesmente mantém o trono.
- Gemini: +40 pontos em um ano
- DeepSeek V4 Flash: subestimado em 6 pontos
- Qwen3: ainda melhor em relação preço/qualidade
- MiniMax: ganhou hype, sólido nos testes, mas não revolucionário
- Oito novos modelos de junho: não deslocaram o líder
Novos Critérios e o Hype do MiniMax
Na atualização do ranking, foi adicionado um novo critério — velocidade de geração. Descobriu-se que velocidade e qualidade nem sempre andam de mãos dadas. Um modelo pode ser rápido, mas mais lento no aprendizado com dados atuais, ou vice-versa. Sobre o MiniMax, vale a pena comentar em separado. De fato, todos o elogiam, e em termos de capacidades ele está próximo ao Opus. Mas havia muito hype ativo em torno dele. No teste honesto, ele mostra resultados dignos de atenção, mas não tão revolucionários para reescrever a hierarquia.
O Que Isso Significa
Se você está escolhendo entre qualidade e preço, Qwen3-235B continua sendo a melhor escolha para a maioria das tarefas. Outros modelos são mais especializados: Gemini para multimodalidade, DeepSeek para experimentos, MiniMax para quem está disposto a pagar mais.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.