Habr AI comparou Claude, Gemini e ChatGPT em texto, matemática, análise e criatividade
Habr AI lançou uma comparação de três LLMs de topo—ChatGPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro. O foco não está em prompts banais, mas em tarefas não…
Processado por IA de Habr AI; editado por Hamidun News
Habr AI publicou uma comparação de três modelos topo de linha — ChatGPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro. Em vez dos testes usuais como "escreva uma história" ou "resolva um problema", o autor deslocou o foco para cenários não-padrão, onde as diferenças reais entre os sistemas se tornam mais visíveis.
Formato de teste não-padrão
A ideia principal do material não é encontrar um vencedor absoluto, mas verificar como os modelos se comportam fora dos demos mais gastos. Quando pede-se a LLMs que escrevam um texto curto, gerem um template de código ou resolvam um problema de nível escolar, eles frequentemente mostram desempenho similar. Mas em tarefas mais estranhas, limítrofes ou simplesmente menos padronizadas, começam a emergir estilo de pensamento, flexibilidade, resiliência à ambiguidade e capacidade de manter contexto sem dicas em cada passo.
Essa abordagem importa porque usuários cada vez mais aplicam modelos não para um único comando isolado, mas como uma ferramenta intelectual para trabalho. Na prática real, você precisa não apenas "responder corretamente", mas também entender requisitos ocultos, não desabar na formulação, não se perder em conversa desnecessária e não perder a lógica no meio da argumentação. Por isso a comparação através de tarefas inusitadas parece mais útil que mais um benchmark formal.
Três modelos topo de linha
O teste apresenta ChatGPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro — três sistemas que típicamente aparecem no topo das discussões sobre qualidade de geração. A composição dos participantes por si mostra que não se trata de um experimento de nicho, mas de uma comparação de topo de linha atuais, entre os quais usuários avançados, editores, analistas e equipes que integraram LLM em fluxos diários de trabalho mais frequentemente escolhem.
Também é importante que o autor não tente apresentar o material como um veredito final de mercado. Antes, é uma tentativa de responder uma questão mais prática: onde exatamente as diferenças entre os melhores modelos se tornam notáveis. Em tarefas rotineiras, a diferença pode ser pequena, mas em cenários com ambiguidade, requisitos combinados e restrições criativas, cada modelo mostra seu próprio estilo. Para o leitor, isso é mais útil que uma classificação seca porque ajuda a associar um modelo a um tipo específico de trabalho.
O que está sendo avaliado
Segundo a descrição do artigo, o foco é deslocado para quatro grupos de tarefas que estão mais próximas do uso real do que de uma apresentação demonstrativa. Não se trata de verificar uma única métrica, mas de tentar ver como um modelo muda entre diferentes tipos de pensamento: desde edição cuidadosa e lógica formal até cálculos e geração livre de ideias. Tal conjunto permite avaliar não uma única habilidade estreita, mas o comportamento do sistema em diferentes modos — desde precisão até criatividade.
- Trabalho com texto e qualidade de formulações
- Matemática e resiliência a erros de cálculo
- Tarefas analíticas com múltiplas condições
- Criatividade em requisitos atípicos e não totalmente formalizados
A força de tal comparação é que ela mostra não apenas o nível de conhecimento de um modelo, mas também o caráter de sua resposta. Um sistema pode ser mais cuidadoso em estrutura, outro mais ousado em ideias, um terceiro mais estável em lógica. Para um usuário, isso frequentemente é mais importante que um primeiro lugar abstrato, porque a escolha de LLM depende não de hype geral, mas do que exatamente precisa ser feito: editar texto, verificar raciocínio, resolver problemas ou rapidamente encontrar soluções não-convencionais.
O que isso significa
Comparações como esta estão gradualmente mudando o modo como falamos sobre LLMs. A questão já não é "quem é mais inteligente em geral", mas "qual modelo melhor lida com seu cenário real". Para o mercado, isso é um sinal de maturidade: topo de linha se tornam forte o suficiente para serem avaliados não por fator uau, mas pelas nuances de desempenho.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.