Habr AI→ original

Kaggle sob Google DeepMind lança Benchmarks SDK para comparar grandes modelos de IA

Kaggle não é mais apenas uma plataforma de competições de ciência de dados. Em 2026, passando para o guarda-chuva do Google DeepMind, a plataforma lançou a…

Processado por IA de Habr AI; editado por Hamidun News
Kaggle sob Google DeepMind lança Benchmarks SDK para comparar grandes modelos de IA
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Kaggle, uma plataforma que milhões de especialistas em ciência de dados conhecem como a principal arena de competições de aprendizado de máquina, está mudando sua identidade. O slogan "Seu Lar para Ciência de Dados" deu lugar a "O Terreno de Prova de IA do Mundo" — e isto não é apenas uma reformulação de marketing. Em 2026, o Kaggle passou oficialmente sob a gestão da AI Frontier — uma nova divisão do Google DeepMind.

A mudança de gestor significa uma mudança no foco estratégico. O Kaggle não é mais simplesmente um lugar para competições de previsão ou classificação de imagens. Agora a missão da plataforma é a avaliação sistemática de modelos de linguagem grandes e multimodais em condições padronizadas.

A principal atualização técnica — uma nova seção de Benchmarks no site e um SDK Kaggle Benchmarks aberto no GitHub. Este é um framework completo para criar, gerenciar e executar conjuntos de testes. A mecânica é simples: um pesquisador descreve um teste — dados de entrada, resultado esperado, métrica de qualidade — combina vários testes em um grupo, e esse grupo se torna um benchmark.

O SDK cuida de executar os modelos em condições iguais e gera o resultado: logs, JSON, tabelas de comparação, placar de líderes. A flexibilidade do sistema permite implementar quase qualquer mecânica de teste — desde a precisão clássica até tarefas complexas com múltiplas etapas e avaliação de raciocínio. Ao mesmo tempo, dados de benchmark e código podem ser mantidos em conjuntos de dados privados, fechados ao acesso público.

As empresas podem criar padrões internos de avaliação de modelos sem revelar aos concorrentes a metodologia e casos de teste. Se quiserem — tornarão o benchmark público, e ele se torna um padrão comum da comunidade. Por que isso é importante agora?

O problema da avaliação justa de modelos de IA é extremamente agudo. Benchmarks públicos populares — MMLU, HumanEval, GPQA e outros — são regularmente criticados: dados deles vazam em conjuntos de treinamento, e os modelos essencialmente fazem um exame usando cola ao invés de demonstrar habilidades reais. Grandes laboratórios criam testes internos fechados — mas equipes pequenas e grupos acadêmicos não possuem tal infraestrutura.

O SDK Kaggle Benchmarks torna este conjunto de ferramentas acessível. Google DeepMind obtém vantagens óbvias com a transformação da plataforma. Kaggle com sua comunidade de milhões se torna um lugar para demonstrar as capacidades de seus próprios modelos em comparação com concorrentes — sob condições percebidas como neutras.

A comunidade também tem benefícios claros: anteriormente, criar um benchmark reproduzível e justo exigia trabalho de engenharia sério, agora é acessível através de um SDK padrão. A nostalgia pelo antigo Kaggle é compreensível. Os tempos em que uma vitória bem ajustada do XGBoost sobre uma rede neural em dados tabulares era uma sensação se foram.

A tarefa da indústria mudou: de "quem prevê com mais precisão" — para "como medir objetivamente o que um modelo grande faz". Kaggle está se adaptando a essa mudança e, julgando pela escala das mudanças, pretende se tornar o padrão desta medição.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…