Habr AI→ original

Qwen 3.6 Plus vence DeepSeek V4 Pro no teste de conteúdo russo e é mais custo-efetivo

No teste de conteúdo russo, o novo DeepSeek V4 Pro ficou aquém do Tier S esperado: 89 pontos contra 92 do Qwen 3.6 Plus. A análise econômica é ainda mais…

Processado por IA de Habr AI; editado por Hamidun News
Qwen 3.6 Plus vence DeepSeek V4 Pro no teste de conteúdo russo e é mais custo-efetivo
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Um teste comparativo recente de seis LLMs de abril em conteúdo em russo trouxe um resultado inesperado: o novo carro-chefe DeepSeek V4 Pro não se tornou o líder. O Qwen 3.6 Plus teve melhor desempenho, tendo sido lançado antes e custando menos.

Quem ficou à frente

Esperava-se que o DeepSeek V4 Pro entregasse resultados de nível Tier S — acima de 95 pontos em 100. As expectativas eram lógicas: o modelo é grande, novo, com resultados fortes no AIME e SWE-bench e com ênfase em arquitetura de reasoning. Mas em um teste prático em conteúdo em russo, obteve 89 pontos.

Este é um resultado forte, mas não o tipo normalmente esperado de um lançamento reivindicando status de carro-chefe no mercado. Ainda mais interessante é a comparação dentro da própria linha DeepSeek. A versão Flash obteve 83 pontos, ficando atrás do Pro por apenas 6 pontos.

Nesse contexto, o reteste do Qwen 3.6 Plus, lançado 22 dias antes, obteve 92 pontos. Como resultado, o modelo mais antigo superou o lançamento mais recente do DeepSeek não apenas em qualidade de texto, mas também em utilidade geral para tarefas reais em idioma russo.

Preço versus qualidade

A principal surpresa não está apenas nos pontos, mas na economia. Se o Pro supera o Flash por apenas alguns pontos enquanto custa 13 vezes mais, a escolha para produção não parece mais óbvia. Para equipes que geram grandes volumes de conteúdo, essa diferença rapidamente se torna um item de despesa notável.

Nesse cenário, o que importa não é o recorde absoluto no teste, mas quanto resultado útil o modelo oferece por dólar gasto. Na metodologia atualizada, o autor da comparação enfatiza precisamente isso e propõe avaliar modelos através de score-per-dollar. Essa abordagem muda as conclusões mais dramaticamente do que uma classificação convencional por pontuações brutas.

Um modelo pode ficar um pouco atrás em qualidade, mas vencer no uso real devido a preço, velocidade e comportamento mais previsível em respostas longas. Para equipes editoriais e de produtos, isso é muito mais útil do que pagar cegamente pela opção mais cara.

  • DeepSeek V4 Pro — 89 pontos com expectativas Tier S
  • DeepSeek Flash — 83 pontos com economia notavelmente mais suave
  • Qwen 3.6 Plus — 92 pontos e liderança na comparação
  • Diferença entre Pro e Flash — 6 pontos com diferença de preço 13 vezes maior
  • Métrica-chave para seleção — não apenas score, mas score-per-dollar

Por que o reasoning não salvou

Uma das principais hipóteses após o teste é que a otimização para reasoning não garante resultados narrativos fortes. Métricas como AIME e SWE-bench demonstram efetivamente as capacidades de um modelo em matemática, código e raciocínio estruturado, mas são piores em prever como ele escreverá texto vivo, coerente e convincente em russo. Para tarefas de conteúdo, ritmo, precisão de fraseado, senso de estrutura e tratamento de nuances linguísticas importam, não apenas a capacidade de decompor corretamente uma tarefa em etapas.

Contra esse pano de fundo, as atualizações de metodologia parecem não como mera formalidade, mas como uma tentativa de aproximar o teste mais honestamente da produção. Entre as mudanças estão ajustes de max_tokens, reteste pago e avaliação mais rigorosa do valor prático das respostas. Em outras palavras, não estamos mais simplesmente comparando modelos "inteligentes", mas modelos que devem resolver consistentemente uma tarefa editorial específica dentro de um orçamento determinado.

Foi precisamente sob tais condições que ficou claro que a novidade de um lançamento não é mais uma vantagem em si.

O que isso significa

O mercado de LLM cada vez menos parece uma corrida de "quanto mais novo, melhor". Para tarefas de conteúdo em idioma russo, o vencedor não é o modelo mais barulhento, mas aquele que melhor mantém a qualidade do texto e se paga na produção. Para equipes, este é um sinal para retester com mais frequência os carros-chefe frescos em seus próprios cenários, em vez de selecioná-los apenas com base em títulos de benchmark.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…