Beeline Cloud reuniu benchmarks AI incomuns: de escape rooms a brincar de "humano"
As LLMs são cada vez mais testadas não com problemas escolares, mas com cenários estranhos da vida real. Na seleção da Beeline Cloud há escape rooms com…
Processado por IA de Habr AI; editado por Hamidun News
Benchmarks clássicos para LLM frequentemente medem conhecimento factual e habilidade em resolver tarefas por padrão, mas cada vez mais falham em explicar como um modelo se comporta em condições reais. Por isso pesquisadores e empresas cada vez mais inventam testes estranhos, quase lúdicos: desde escapar de uma sala de fuga até tentar convincentemente interpretar um humano entre outros bots.
Quests e Armadilhas
Um dos exemplos mais ilustrativos é o benchmark do engenheiro Jaemin Ha. Nele, os modelos se encontram em uma versão textual de uma sala de fuga: recebem uma descrição do espaço, objetos disponíveis e uma tarefa para resolver dentro das limitações do mundo físico. Por exemplo, extrair uma bola de tênis de mesa de um tubo estreito ou puxar um frasco com senha de uma abertura apertada.
Este formato não ataca o conhecimento enciclopédico, mas a habilidade de considerar contexto, propriedades dos objetos e sequência de ações. O ponto também é que ao lado de itens úteis há coisas que distraem. O modelo não deve apenas propor um raciocínio elegante, mas separar uma ferramenta funcional do lixo.
Nos testes, GPT-4 e Claude 3.5 Haiku às vezes entendiam a ideia da solução, mas se perdiam nos detalhes: tentavam usar uma régua desnecessária, sequenciavam os passos incorretamente ou adicionavam ações que não eram necessárias. Este é um bom exemplo de como LLMs tropeçam não na lógica em si, mas na lógica aplicada.
Ataques e Design
Outro vetor é segurança. O benchmark SCAM da 1Password não pergunta ao modelo se um email parece phishing, mas simula condições reais de trabalho: emails de entrada, links suspeitos, páginas de login falsas e engenharia social. Em um exemplo ilustrativo, Gemini 2.5 Flash entrega uma senha para um site falso em dez segundos. Para os autores, isto importa mais do que qualquer métrica acadêmica: um agente não deve apenas classificar uma ameaça, mas não cair nela em ação.
- raciocínio físico em espaço limitado
- resistência a phishing e injeção de prompts
- qualidade de interfaces e experiência do usuário resultante
- comportamento do modelo em grupo onde precisa parecer humano
SCAM inclui 30 cenários de nove categorias de ameaças, e os líderes no ranking de fevereiro, Claude Opus 4.6 e GPT-5.2, reconheceram situações perigosas com 92% e 81% de probabilidade. Depois de reforçar com um prompt de sistema, os scores subiram para 98% e 97%.
Ao lado disso existe um tipo totalmente diferente de teste—Design Arena, onde modelos competem em criar interfaces, jogos e visualizações, com vencedores escolhidos por pessoas às cegas usando um sistema de rating Elo. Aqui, não uma única resposta correta é testada, mas a qualidade do produto finalizado. Esta abordagem funciona bem onde métricas formais falham.
Em um torneio, modelos foram solicitados a criar um jogo de tiro alienígena para navegador: uma versão não iniciava, outra produziu um jogo completo com progressão de dificuldade e upgrades. Mais tarde, pesquisadores usaram a plataforma para verificar resultados do seu próprio benchmark OpenDesign contra avaliações comunitárias e obtiveram cerca de 60–80% de concordância. Isto não é precisão perfeita, mas calibração útil para tarefas onde gosto e conveniência não podem ser reduzidos a um único número.
Fingindo ser Humano
Há também formatos completamente experimentais. Em um jogo social, vinte e um modelos de linguagem se revezaram tentando descobrir quem entre os participantes era humano, mesmo que na verdade não houvesse pessoas vivas na sala em absoluto. Cada sessão consistia de seis modelos selecionados aleatoriamente, e os vencedores eram os dois finais que não foram votados para sair. O resultado não foi um benchmark típico de conhecimento, mas um teste de adaptação social, estilo de comunicação e habilidade em não trair sua natureza de máquina.
Cada sistema de IA tentou provar que era a criatura de carne e osso.
Claude Sonnet 4.5 se saiu melhor neste torneio estranho: venceu em 53% das rodadas. Em seguida Gemini 2.0 Flash com 49,2%, e Claude 3 Haiku terminou na parte inferior da tabela com 6,7%. Pesquisadores até pediram a Gemini 2.5 Pro para analisar as respostas dos oponentes e sugerir como mascarar-se como humano mais efetivamente. O conselho funcionou para alguns: GPT-4o viu ganhos notáveis, vencendo aproximadamente 12% mais vezes, enquanto os resultados de Claude 3 Haiku declinaram. A conclusão é desconfortável para a indústria: um modelo pode soar convincente, mas ainda se comportar de forma não natural no diálogo ao vivo.
O Que Isto Significa
Benchmarks incomuns são úteis porque testam LLMs onde testes clássicos ficam em silêncio: em ambientes com restrições físicas, ameaças, avaliação subjetiva e pressão social. Mas também eles não são impecáveis: os próprios conjuntos de tarefas às vezes têm formulações ambíguas e respostas discutíveis. Por isso o melhor cenário não é encontrar um teste supremo, mas montar um conjunto de verificações específico para o produto e observar o comportamento do modelo em vários modos simultaneamente.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.