97 horas em uma única GPU: um experimento com uma rede neural autoaprendente e a armadilha das métricas bonitas
Um desenvolvedor independente gastou 97,5 horas de GPU em uma única RTX 4090 tentando criar uma arquitetura que permitisse a um modelo de linguagem conectar…
Processado por IA de Habr AI; editado por Hamidun News
Imagine: você pega um modelo de linguagem e quer adicionar uma nova capacidade — digamos, a capacidade de resolver equações diferenciais ou escrever código em Rust. O caminho padrão é fine-tuning, que requer dados, recursos computacionais e inevitavelmente leva ao esquecimento catastrófico, quando um modelo perde capacidades antigas ao adquirir novas. Mas e se habilidades pudessem ser conectadas como aplicativos em um smartphone — rápido, modular, sem efeitos colaterais? Essa é exatamente a ideia que um pesquisador independente decidiu testar, publicando um relatório detalhado no Habr. O resultado: 97,5 horas de trabalho em uma única RTX 4090, 22 iterações de experimentos e um dos desapontamentos mais instrutivos em aprendizado de máquina nos últimos tempos.
O conceito de expansão modular de modelos de linguagem não é novo por si só. A indústria há muito discute abordagens como adaptadores LoRA, mixture of experts e várias arquiteturas de plugin. A ideia do autor foi além: criar um sistema no qual um modelo pudesse não apenas usar módulos externos, mas realmente melhorar a si mesmo, integrando novas competências em seu trabalho sem um ciclo completo de retreinamento. Soa como o Santo Graal para aqueles que trabalham com recursos computacionais limitados — e essa é a grande maioria de pesquisadores independentes e pequenas equipes que não têm acesso a clusters de milhares de GPUs.
Tecnicamente, a arquitetura funcionou. Módulos foram conectados, o sistema funcionou de forma estável, as métricas nos conjuntos de dados de validação pareciam convincentes. O pesquisador passou por cerca de vinte iterações, refinando a abordagem cada vez, e em algum momento os números se tornaram realmente bonitos. As perdas diminuíram, a precisão aumentou, as curvas de aprendizado demonstraram exatamente a dinâmica que qualquer especialista em aprendizado de máquina quer ver. No papel, tudo parecia um sucesso.
Ento veio o momento da verdade — testagem em tarefas reais. E aqui aconteceu o que é familiar para muitos profissionais, mas raramente dito em voz alta: um modelo que demonstrou domínio brilhante da "linguagem da matemática" por métricas formais se mostrou completamente incapaz de resolver tarefas matemáticas específicas. Aprendeu a imitar a forma sem dominar o conteúdo. Gerou derivações que pareciam plausíveis, usou notação correta, construiu cadeias de raciocínio que pareciam lógicas — mas as respostas estavam erradas. Este é um exemplo clássico do que a comunidade chama de lei de Goodhart aplicada ao aprendizado de máquina: quando uma métrica se torna o objetivo, ela deixa de ser uma boa métrica.
Este caso destaca um dos problemas fundamentais do aprendizado de máquina moderno — a lacuna entre otimização de métricas e competência real. Modelos de linguagem são extraordinariamente bons em detectar padrões estatísticos e reproduzi-los. Mas reproduzir um padrão e compreender a lógica por trás dele são coisas fundamentalmente diferentes. Um modelo pode aprender que certas expressões matemáticas são geralmente seguidas por certos símbolos sem compreender por que esses símbolos pertencem lá. Para um pesquisador olhando uma curva de perda e precisão, a diferença é invisível até o sistema encontrar uma tarefa que exija genuína generalização.
Mas a história não termina aí, e é o final que a torna verdadeiramente interessante. Segundo o autor, o modelo finalmente "encontrou uma saída por si próprio" — ou seja, sob certas condições o sistema começou a demonstrar comportamento que não foi explicitamente programado. Os detalhes deste avanço merecem atenção separada porque tocam um dos tópicos mais quentes em pesquisa de inteligência artificial: a capacidade de modelos exibirem comportamento emergente, quando estratégias complexas e inesperadas de resolução de problemas surgem de regras simples. Se isso é verdadeira emergência ou apenas uma coincidência afortunada de escolhas arquiteturais — a questão permanece aberta, mas o fato em si merece estudo atento.
Este experimento é importante não tanto por seus resultados específicos quanto pelas lições que decorrem dele. Primeiro, lembra-nos da fragilidade das métricas como ferramenta para avaliar o progresso. Segundo, demonstra que pesquisas sérias no campo de modelos de linguagem ainda são possíveis em hardware de consumidor — ainda que com limitações significativas. Terceiro, enfatiza o valor de publicar falhas abertamente: a indústria, obcecada com benchmarks recordes e comunicados à imprensa sobre os últimos avanços, desesperadamente precisa de histórias honestas sobre como ideias bonitas se quebram contra a realidade. São precisamente estas histórias que movem a ciência para frente — não comunicados de vitória, mas análise cuidadosa do que deu errado e por quê.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.