Habr AI→ original

O ChatGPT 5.4 da OpenAI superou Claude Opus 4.6 e Gemini 3.1 Pro em uma comparação no Habr

O Habr comparou Gemini 3.1 Pro, ChatGPT 5.4 e Claude Opus 4.6 em quatro cenários do dia a dia: geração de texto, resumo de PDF, matemática e programação em…

Processado por IA de Habr AI; editado por Hamidun News
O ChatGPT 5.4 da OpenAI superou Claude Opus 4.6 e Gemini 3.1 Pro em uma comparação no Habr
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

No Habr foi publicada uma grande análise prática de três modelos principais: Gemini 3.1 Pro, ChatGPT 5.4 e Claude Opus 4.6. O autor testou não benchmarks abstratos, mas tarefas cotidianas reais — desde escrever uma história e comprimir um PDF até matemática e uma aplicação em Python — e pela pontuação total classificou ChatGPT como o líder de forma inesperada.

Como compararam

O teste envolveu quatro cenários com os quais os usuários realmente lidam com IA todos os dias. Primeiro, os modelos foram solicitados a escrever uma história de fantasia humorística em três capítulos. Então receberam um PDF com trabalho prático e foram solicitados a criar um resumo conciso mas utilizável sem perder informações-chave. Depois veio um bloco de quatro problemas de matemática, e o teste final foi desenvolver uma aplicação desktop em Python: uma calculadora de engenharia com GUI e um jogo Snake incorporado.

A lógica de avaliação foi a mais prática possível. O autor avaliou tarefas de texto e código em uma escala de três pontos, enquanto o estágio de matemática dava até quatro pontos — um para cada problema resolvido corretamente. Adicionalmente, pela primeira vez incluiu o custo de cada solicitação em rublos na tabela. Graças a isso, a comparação não era apenas sobre qualidade da resposta, mas também sobre o custo do resultado. O máximo em tal esquema é 13 pontos, e foi precisamente a combinação de pontos com despesas que se tornou o principal critério para a escolha final.

Quem venceu as etapas

Na primeira etapa, ChatGPT vacilou ligeiramente devido a um erro de numeração de capítulos e recebeu 2,5 pontos, enquanto Gemini e Claude obtiveram o máximo de 3 pontos cada. Na segunda rodada, a situação se inverteu: ChatGPT comprimiu o PDF melhor que todos e preservou detalhes importantes, enquanto Gemini e Claude, na opinião do autor, cortaram o texto de forma muito agressiva e perderam algumas informações necessárias. O bloco de matemática foi equilibrado para os três, mas na programação surgiram nuances novamente, não na teoria mas nos resultados de trabalho.

  • Geração de texto: Gemini 3.1 Pro — 3 pontos por 20 rublos, Claude Opus 4.6 — 3 pontos por 68 rublos, ChatGPT 5.4 — 2,5 pontos por 25 rublos.
  • Compressão de PDF: ChatGPT 5.4 recebeu 3 pontos por 24 rublos; Gemini 3.1 Pro e Claude Opus 4.6 obtiveram 2 pontos por 16 e 38 rublos respectivamente.
  • Matemática: todos os três modelos resolveram os problemas perfeitamente, mas ChatGPT 5.4 foi mais barato — 15 rublos contra 22 para Gemini e 29 para Claude.
  • Programação: ChatGPT 5.4 recebeu 3 pontos por uma calculadora e Snake funcionando, Gemini 3.1 Pro — 2,5 pontos devido à captura de tecla malsucedida no jogo, Claude Opus 4.6 — 2 pontos devido a um erro ao dividir por números decimais.
"O resultado é claro — ChatGPT 5.4 venceu."

Preço e compromissos

A tabela final se mostrou reveladora. ChatGPT 5.4 pontuou 11,5 pontos e gastou 112 rublos.

Gemini 3.1 Pro terminou o teste com 10,5 pontos e despesas totais de 87 rublos, tornando-se a opção mais econômica. Claude Opus 4.

6 recebeu 10 pontos mas custou 208 rublos — quase o dobro de ChatGPT e mais do que o dobro de Gemini. Se olhando apenas para preço, o líder aqui é do Google; se olhando para o balanço de qualidade e despesas, a vantagem é da OpenAI. No entanto, a análise em si não pretende ser um benchmark acadêmico universal.

O autor compara diretamente os modelos em um conjunto restrito de tarefas cotidianas e em alguns lugares se baseia em julgamento editorial pessoal, especialmente onde se trata de estilo de texto ou conveniência de interface. Mas é exatamente por isso que o material é útil: mostra não recordes de laboratório, mas como os modelos se comportam no trabalho prático. Nesta seleção, Gemini parece uma opção de orçamento racional, Claude — uma cara e inconsistente, e ChatGPT — o compromisso mais estável.

O que isso significa

Se escolher um modelo para um amplo conjunto de tarefas cotidianas, então por esta comparação ChatGPT 5.4 está à frente: não é o melhor em todos os lugares, mas mais frequentemente oferece o resultado mais equilibrado por dinheiro razoável. Gemini 3.1 Pro permanece uma forte alternativa para aqueles que observam seu orçamento de perto, enquanto Claude Opus 4.6 após tal teste parece uma escolha menos favorável que antes.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…