Jiqizhixin (机器之心)→ original

Destilação da mente: por que redes neurais sofrem com professores muito inteligentes

Destilação da Mente: Por que Redes Neurais Sofrem com Professores Muito Inteligentes Imagine que você está tentando explicar eletrodinâmica quântica para uma…

Processado por IA de Jiqizhixin (机器之心); editado por Hamidun News
Destilação da mente: por que redes neurais sofrem com professores muito inteligentes
Fonte: Jiqizhixin (机器之心). Colagem: Hamidun News.
◐ Ouvir artigo

Destilação da Mente: Por que Redes Neurais Sofrem com Professores Muito Inteligentes

Imagine que você está tentando explicar eletrodinâmica quântica para uma criança de primeira série. Você poderia ser um gênio do nível de Feynman, mas seu aluno simplesmente não possui o aparato conceitual necessário para assimilar a informação. No mundo da inteligência artificial, esse processo é chamado de destilação, onde um enorme modelo "professor" como GPT-4 tenta transferir seu conhecimento para um modelo "aluno" compacto.

Até agora, a indústria acreditava que quanto mais dados alimentássemos um modelo pequeno, mais inteligente ele se tornaria. Mas pesquisadores da Universidade de Fudan decidiram desafiar essa abordagem quantitativa, provando que montanhas de dados frequentemente se transformam em ruído informacional. O problema com a destilação clássica de raciocínio é que não consideramos o abismo cognitivo entre os modelos.

Se uma tarefa é muito simples, o modelo aluno já conhece a resposta e não aprende nada. Se uma tarefa é muito difícil, ele simplesmente memoriza a sequência de tokens sem entender a lógica da inferência. Cientistas chineses introduziram um conceito elegante de "estranho familiar."

Esses são pontos de dados onde o modelo aluno hesita: ele entende o contexto, mas ainda não consegue produzir resultados consistentemente corretos. É precisamente nessa "zona cinzenta" que ocorre o verdadeiro crescimento da inteligência. Para encontrar esses grãos de ouro de dados, a equipe propôs um indicador simples, mas eficaz.

Em vez de confiar em avaliações complexas de pesos ou verificações externas, eles observam a confiança do modelo em suas respostas. Se o modelo aluno produz a resposta correta com baixa probabilidade ou comete apenas um pequeno erro, então encontramos aquele "estranho familiar." Isso se assemelha à zona de desenvolvimento proximal na psicologia humana: aprendemos melhor quando uma tarefa nos desafia, mas permanece alcançável.

Os resultados experimentais parecem desanimadores para quem está acostumado a simplesmente jogar placas de vídeo H100 no problema. Descobriu-se que treinar em 10% de "estranhos familiares" cuidadosamente selecionados supera o desempenho do treinamento em 100% de dados aleatórios do mesmo conjunto em termos de eficiência. Isso não é apenas uma pequena otimização, é uma mudança fundamental na economia do treinamento de redes neurais.

Estamos passando de uma estratégia de "mais é melhor" para a seleção cirurgicamente precisa de exemplos de treinamento. Por que isso é importante para nós agora? A batalha pela IA está se deslocando de gigantescas fazendas de servidores para nossos bolsos.

Apple, Google e Samsung estão desesperadamente tentando encaixar poderosos modelos de raciocínio em smartphones. A metodologia da Universidade de Fudan permite tornar esses modelos locais significativamente mais inteligentes sem inchar seu tamanho e sem gastar semanas em ajuste fino. Se aprendermos a selecionar dados eficientemente para destilação, o abismo entre gigantes da nuvem e assistentes locais encolherá muito mais rápido do que os céticos previram.

Em última análise, a pesquisa nos lembra da importância da pedagogia até mesmo no mundo do silício. Um bom professor não é aquele que sabe mais, mas aquele que entende o nível atual de seu aluno e lhe dá precisamente a tarefa que o fará trabalhar (ou a rede neural) aos limites de suas capacidades. Parece que a era do consumo indiscriminado de terabytes de texto está chegando ao fim, cedendo lugar a um aprendizado inteligente e seletivo.

O principal: A eficiência do treinamento agora é mais importante que o volume de dados. Veremos no próximo ano modelos locais que correspondam ao GPT-4 em qualidade de raciocínio graças à filtragem adequada do conhecimento?

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…