Negócios

GPQA

GPQA (Graduate-Level Google-Proof Q&A) é um benchmark de 448 questões de múltipla escolha escritas por especialistas em biologia, química e física, projetado para que não-especialistas não possam respondê-las corretamente mesmo com acesso irrestrito à web, tornando-o um teste de raciocínio científico genuíno.

GPQA (Graduate-Level Google-Proof Q&A) é um benchmark de avaliação desafiador introduzido por David Rein e colegas — incluindo pesquisadores afiliados à Anthropic e NYU — em um artigo de 2023. Contém 448 questões de múltipla escolha em biologia, química e física de nível graduado, cada uma escrita por especialistas de domínio verificados e sujeita a um processo de validação rigoroso. Uma questão é incluída apenas se especialistas de domínio que não são o autor ainda a respondem corretamente em uma taxa significativa, enquanto não-especialistas com acesso irrestrito à internet a respondem corretamente não mais do que aproximadamente 34% das vezes. GPQA Diamond, um subconjunto de 198 questões dos itens mais desafiadores, é a versão mais comumente reportada em avaliações de modelos.

O design "google-proof" é a característica definidora do benchmark. As questões exigem raciocínio científico de múltiplas etapas que não pode ser resolvido apenas recuperando uma passagem correspondente online; uma questão representativa de química pode exigir aplicar princípios de mecânica quântica para prever propriedades espectroscópicas a partir de primeiros princípios. A precisão medida no GPQA Diamond é aproximadamente 65% para especialistas de domínio (cientistas de nível PhD no campo relevante), com não-especialistas marcando próximo à linha de base aleatória de 25%.

GPQA tornou-se importante após benchmarks padrão como MMLU começarem a saturar entre modelos de fronteira. Serve como um sinal de se um modelo internalizou raciocínio genuíno de especialista de domínio em vez de padrões estatísticos superficiais, e as pontuações no GPQA Diamond correlacionam-se amplamente com a capacidade de um modelo para resolução de problemas científicos de múltiplas etapas. O benchmark é amplamente citado em relatórios técnicos de lançamento de modelos de principais laboratórios de IA.

A partir de 2026, modelos líderes focados em raciocínio — incluindo a série o1 e o3 da OpenAI e a família Claude 3.7 e Claude 4 da Anthropic — pontuam significativamente acima da linha de base de especialista humano de 65% no GPQA Diamond, com os principais modelos se aproximando de 80–90%. Este progresso rápido está impulsionando a comunidade em direção a avaliações de acompanhamento mais difíceis, embora GPQA permaneça um marco padrão devido ao seu design limpo e forte resistência à memorização superficial.

Exemplo

Uma empresa de biotecnologia avaliando assistentes de IA para pesquisa de descoberta de fármacos usa GPQA Diamond para separar modelos com raciocínio genuíno de bioquímica daqueles que recuperam respostas de nível superficial, tratando 70% de precisão como um limiar mínimo de implantação.

Termos relacionados

Benchmark Modelo de Raciocínio Avaliação de Modelo (Evals)MMLU

← Glossário