GPQA
GPQA (Graduate-Level Google-Proof Q&A) é um benchmark de 448 questões de múltipla escolha escritas por especialistas em biologia, química e física, projetado para que não-especialistas não possam respondê-las corretamente mesmo com acesso irrestrito à web, tornando-o um teste de raciocínio científico genuíno.
GPQA (Graduate-Level Google-Proof Q&A) é um benchmark de avaliação desafiador introduzido por David Rein e colegas — incluindo pesquisadores afiliados à Anthropic e NYU — em um artigo de 2023. Contém 448 questões de múltipla escolha em biologia, química e física de nível graduado, cada uma escrita por especialistas de domínio verificados e sujeita a um processo de validação rigoroso. Uma questão é incluída apenas se especialistas de domínio que não são o autor ainda a respondem corretamente em uma taxa significativa, enquanto não-especialistas com acesso irrestrito à internet a respondem corretamente não mais do que aproximadamente 34% das vezes. GPQA Diamond, um subconjunto de 198 questões dos itens mais desafiadores, é a versão mais comumente reportada em avaliações de modelos.
O design "google-proof" é a característica definidora do benchmark. As questões exigem raciocínio científico de múltiplas etapas que não pode ser resolvido apenas recuperando uma passagem correspondente online; uma questão representativa de química pode exigir aplicar princípios de mecânica quântica para prever propriedades espectroscópicas a partir de primeiros princípios. A precisão medida no GPQA Diamond é aproximadamente 65% para especialistas de domínio (cientistas de nível PhD no campo relevante), com não-especialistas marcando próximo à linha de base aleatória de 25%.
GPQA tornou-se importante após benchmarks padrão como MMLU começarem a saturar entre modelos de fronteira. Serve como um sinal de se um modelo internalizou raciocínio genuíno de especialista de domínio em vez de padrões estatísticos superficiais, e as pontuações no GPQA Diamond correlacionam-se amplamente com a capacidade de um modelo para resolução de problemas científicos de múltiplas etapas. O benchmark é amplamente citado em relatórios técnicos de lançamento de modelos de principais laboratórios de IA.
A partir de 2026, modelos líderes focados em raciocínio — incluindo a série o1 e o3 da OpenAI e a família Claude 3.7 e Claude 4 da Anthropic — pontuam significativamente acima da linha de base de especialista humano de 65% no GPQA Diamond, com os principais modelos se aproximando de 80–90%. Este progresso rápido está impulsionando a comunidade em direção a avaliações de acompanhamento mais difíceis, embora GPQA permaneça um marco padrão devido ao seu design limpo e forte resistência à memorização superficial.