Muro para LLM: por que céticos se enganaram novamente
A cada seis meses, a indústria de IA entra em um período de "grande desânimo". Primeiro nos disseram que o GPT-3 era o limite e não havia para onde ir…
Processado por IA de Habr AI; editado por Hamidun News
A cada seis meses, a indústria de IA entra em um período de "grande desânimo". Primeiro nos disseram que o GPT-3 era o limite e não havia para onde ir. Depois nos asseguraram que o próximo passo exige trilhões de tokens que simplesmente não existem na internet. Agora uma nova tendência: os dados acabaram, a arquitetura de transformers se esgotou, é hora de encerrar. Isso soa sólido e até lógico se você olhar para o mundo por uma fechadura. Mas se você está acompanhando o jogo há mais do que um ciclo de hype, entende — não batemos em uma parede, simplesmente chegamos ao final de uma reta e estamos entrando em uma rodovia de alta velocidade.
O problema com os céticos é que pensam unidimensionalmente. Para eles, progresso significa colocar mais texto em um modelo e obter mais inteligência. Sim, dados textuais para aprendizado clássico com supervisão estão realmente se esgotando. A internet inteira já foi "digerida" pelas redes neurais. Mas aprender com dados é apenas um dos seis eixos ao longo dos quais o progresso se move. Enquanto alguém lamenta bibliotecas vazias, engenheiros na OpenAI, Google e Anthropic estão girando vigorosamente os outros cinco alavancas, que de alguma forma são esquecidas nas discussões públicas.
A primeira e talvez mais importante alavanca hoje é o cálculo no tempo de inferência, ou inference-time compute. Olhe para os modelos da família o1. Eles não apenas geram uma resposta, eles "pensam" antes de escrever a primeira letra. Isso muda o paradigma: agora você não precisa necessariamente tornar um modelo dez vezes maior para torná-lo mais inteligente. Você pode fazê-lo pensar mais tempo sobre a tarefa. É como na vida: uma pessoa inteligente não é quem leu mais livros, mas quem sabe analisar informações profundamente. Estamos transitando da quantidade de leitura para a qualidade da compreensão.
O segundo eixo é a eficiência algorítmica. Lembra como todos reclamavam da voracidade dos transformers? Agora arquiteturas como Mamba e Mixture of Experts (MoE) entram em cena. Elas oferecem o mesmo poder com muito menos custo de recursos. Estamos aprendendo a construir motores mais sofisticados, não apenas aumentar o tamanho do tanque de combustível. Some-se a isso o terceiro eixo — multimodalidade. Os modelos deixam de ser apenas "leitores de texto". Começam a ver, ouvir e compreender o mundo físico. Quando a IA aprende com vídeo e áudio, o conceito de "texto acabou" perde todo o sentido. O mundo é um fluxo infinito de dados que estamos apenas começando a explorar.
O quarto e quinto fatores são o uso de ferramentas e a melhoria contínua através de self-play. Lembre-se de como o AlphaGo derrotou o campeão mundial de Go. Não aprendeu apenas com jogos de humanos, jogou contra si mesmo milhões de vezes. Agora essa abordagem está chegando aos LLMs. Os modelos começam a gerar dados sintéticos, verificar sua lógica e aprender com seus próprios erros. Se a IA pode criar tarefas e resolvê-las sozinha, não precisa mais de humanos como única fonte de conhecimento. Isso fecha o ciclo de aprendizado e o torna praticamente infinito.
Estamos em um ponto onde as métricas antigas de progresso — número de parâmetros e volume de conjunto de dados — deixam de ser primárias. Uma era de flexibilidade arquitetônica e profundidade intelectual chegou. Aqueles que hoje clamam por "tecnologia esgotada" simplesmente não perceberam que as regras do jogo mudaram. Não atingimos o teto, simplesmente terminamos a fundação e começamos a construir andares. E julgando pelo ritmo de implantação de agentes e ferramentas, esses andares crescerão muito mais rápido do que qualquer um esperava.
O ponto principal: Esqueça a "falta de dados". A verdadeira batalha agora é sobre quem ensinará o modelo a pensar mais tempo e de forma mais eficiente, não quem o alimentará com mais terabytes do Reddit.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.