MMLU
MMLU (Massive Multitask Language Understanding) é um benchmark avaliando modelos de linguagem em aproximadamente 14.000 questões de múltipla escolha através de 57 disciplinas acadêmicas — de cálculo e medicina a lei e ética — fornecendo uma medida padronizada de conhecimento e raciocínio amplos.
MMLU (Massive Multitask Language Understanding) é um benchmark de avaliação de modelo de linguagem introduzido por Dan Hendrycks e colegas na UC Berkeley em um artigo de 2020. Compreende aproximadamente 14.042 questões de quatro escolhas extraídas de 57 áreas de disciplina abrangendo STEM, humanidades, lei, ciências sociais e domínios profissionais incluindo medicina e contabilidade. Questões são obtidas de exames acadêmicos reais, testes padronizados e livros, mirando conhecimento que um especialista amplamente educado é esperado possuir.
Desempenho é relatado como a percentagem de respostas corretas, tipicamente em configuração 5-shot onde o modelo recebe cinco pares de questão-resposta de exemplo antes de cada questão de teste. Uma baseline aleatória é 25%; desempenho humano não-especialista é aproximadamente 34%; desempenho estimado de humano especialista em domínio é aproximadamente 89–90%. GPT-3 (175B) pontuou aproximadamente 43% em seu lançamento de 2020. Crescimento rápido de capacidade seguiu: GPT-4 excedeu 86% em 2023, e múltiplos modelos de fronteira incluindo Gemini Ultra, Claude 3 Opus e Llama 3 405B pontuaram subsequentemente na faixa de 85–90%.
A amplitude do MMLU o tornou o benchmark dominante para comparação de modelos entre organizações por vários anos. Revelou saltos claros de capacidade ligados a escala de modelo e melhorias de treinamento e foi rotineiramente citado em relatórios de lançamento de modelo como um sinal de capacidade geral primária. No entanto, enfrentou críticas significativas: evidência de contaminação de dados de treinamento (questões de teste aparecendo em corpora de pré-treinamento), efeitos de teto entre modelos top, e preocupações que desempenho de múltipla escolha pode refletir correspondência de padrão de nível de superfície em vez de raciocínio genuíno.
A partir de 2026, MMLU retém seu papel como referência histórica e baseline comparativa mas é cada vez mais suplementado por variantes mais difíceis como MMLU-Pro, que usa distratores mais difíceis e requer raciocínio multi-passo, e por benchmarks como GPQA e ARC-AGI para discriminação entre modelos de fronteira. Seu valor restante principal é fornecer uma escala comum contra a qual modelos antigos e novos podem ser posicionados.