Kaggle sob Google DeepMind lança Benchmarks SDK para comparar grandes modelos de IA
Kaggle não é mais apenas uma plataforma de competições de ciência de dados. Em 2026, passando para o guarda-chuva do Google DeepMind, a plataforma lançou a…
Processado por IA de Habr AI; editado por Hamidun News
Kaggle, uma plataforma que milhões de especialistas em ciência de dados conhecem como a principal arena de competições de aprendizado de máquina, está mudando sua identidade. O slogan "Seu Lar para Ciência de Dados" deu lugar a "O Terreno de Prova de IA do Mundo" — e isto não é apenas uma reformulação de marketing. Em 2026, o Kaggle passou oficialmente sob a gestão da AI Frontier — uma nova divisão do Google DeepMind.
A mudança de gestor significa uma mudança no foco estratégico. O Kaggle não é mais simplesmente um lugar para competições de previsão ou classificação de imagens. Agora a missão da plataforma é a avaliação sistemática de modelos de linguagem grandes e multimodais em condições padronizadas.
A principal atualização técnica — uma nova seção de Benchmarks no site e um SDK Kaggle Benchmarks aberto no GitHub. Este é um framework completo para criar, gerenciar e executar conjuntos de testes. A mecânica é simples: um pesquisador descreve um teste — dados de entrada, resultado esperado, métrica de qualidade — combina vários testes em um grupo, e esse grupo se torna um benchmark.
O SDK cuida de executar os modelos em condições iguais e gera o resultado: logs, JSON, tabelas de comparação, placar de líderes. A flexibilidade do sistema permite implementar quase qualquer mecânica de teste — desde a precisão clássica até tarefas complexas com múltiplas etapas e avaliação de raciocínio. Ao mesmo tempo, dados de benchmark e código podem ser mantidos em conjuntos de dados privados, fechados ao acesso público.
As empresas podem criar padrões internos de avaliação de modelos sem revelar aos concorrentes a metodologia e casos de teste. Se quiserem — tornarão o benchmark público, e ele se torna um padrão comum da comunidade. Por que isso é importante agora?
O problema da avaliação justa de modelos de IA é extremamente agudo. Benchmarks públicos populares — MMLU, HumanEval, GPQA e outros — são regularmente criticados: dados deles vazam em conjuntos de treinamento, e os modelos essencialmente fazem um exame usando cola ao invés de demonstrar habilidades reais. Grandes laboratórios criam testes internos fechados — mas equipes pequenas e grupos acadêmicos não possuem tal infraestrutura.
O SDK Kaggle Benchmarks torna este conjunto de ferramentas acessível. Google DeepMind obtém vantagens óbvias com a transformação da plataforma. Kaggle com sua comunidade de milhões se torna um lugar para demonstrar as capacidades de seus próprios modelos em comparação com concorrentes — sob condições percebidas como neutras.
A comunidade também tem benefícios claros: anteriormente, criar um benchmark reproduzível e justo exigia trabalho de engenharia sério, agora é acessível através de um SDK padrão. A nostalgia pelo antigo Kaggle é compreensível. Os tempos em que uma vitória bem ajustada do XGBoost sobre uma rede neural em dados tabulares era uma sensação se foram.
A tarefa da indústria mudou: de "quem prevê com mais precisão" — para "como medir objetivamente o que um modelo grande faz". Kaggle está se adaptando a essa mudança e, julgando pela escala das mudanças, pretende se tornar o padrão desta medição.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.