Habr AI→ original

Muro para LLM: por que céticos se enganaram novamente

A cada seis meses, a indústria de IA entra em um período de "grande desânimo". Primeiro nos disseram que o GPT-3 era o limite e não havia para onde ir…

Processado por IA de Habr AI; editado por Hamidun News
Muro para LLM: por que céticos se enganaram novamente
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A cada seis meses, a indústria de IA entra em um período de "grande desânimo". Primeiro nos disseram que o GPT-3 era o limite e não havia para onde ir. Depois nos asseguraram que o próximo passo exige trilhões de tokens que simplesmente não existem na internet. Agora uma nova tendência: os dados acabaram, a arquitetura de transformers se esgotou, é hora de encerrar. Isso soa sólido e até lógico se você olhar para o mundo por uma fechadura. Mas se você está acompanhando o jogo há mais do que um ciclo de hype, entende — não batemos em uma parede, simplesmente chegamos ao final de uma reta e estamos entrando em uma rodovia de alta velocidade.

O problema com os céticos é que pensam unidimensionalmente. Para eles, progresso significa colocar mais texto em um modelo e obter mais inteligência. Sim, dados textuais para aprendizado clássico com supervisão estão realmente se esgotando. A internet inteira já foi "digerida" pelas redes neurais. Mas aprender com dados é apenas um dos seis eixos ao longo dos quais o progresso se move. Enquanto alguém lamenta bibliotecas vazias, engenheiros na OpenAI, Google e Anthropic estão girando vigorosamente os outros cinco alavancas, que de alguma forma são esquecidas nas discussões públicas.

A primeira e talvez mais importante alavanca hoje é o cálculo no tempo de inferência, ou inference-time compute. Olhe para os modelos da família o1. Eles não apenas geram uma resposta, eles "pensam" antes de escrever a primeira letra. Isso muda o paradigma: agora você não precisa necessariamente tornar um modelo dez vezes maior para torná-lo mais inteligente. Você pode fazê-lo pensar mais tempo sobre a tarefa. É como na vida: uma pessoa inteligente não é quem leu mais livros, mas quem sabe analisar informações profundamente. Estamos transitando da quantidade de leitura para a qualidade da compreensão.

O segundo eixo é a eficiência algorítmica. Lembra como todos reclamavam da voracidade dos transformers? Agora arquiteturas como Mamba e Mixture of Experts (MoE) entram em cena. Elas oferecem o mesmo poder com muito menos custo de recursos. Estamos aprendendo a construir motores mais sofisticados, não apenas aumentar o tamanho do tanque de combustível. Some-se a isso o terceiro eixo — multimodalidade. Os modelos deixam de ser apenas "leitores de texto". Começam a ver, ouvir e compreender o mundo físico. Quando a IA aprende com vídeo e áudio, o conceito de "texto acabou" perde todo o sentido. O mundo é um fluxo infinito de dados que estamos apenas começando a explorar.

O quarto e quinto fatores são o uso de ferramentas e a melhoria contínua através de self-play. Lembre-se de como o AlphaGo derrotou o campeão mundial de Go. Não aprendeu apenas com jogos de humanos, jogou contra si mesmo milhões de vezes. Agora essa abordagem está chegando aos LLMs. Os modelos começam a gerar dados sintéticos, verificar sua lógica e aprender com seus próprios erros. Se a IA pode criar tarefas e resolvê-las sozinha, não precisa mais de humanos como única fonte de conhecimento. Isso fecha o ciclo de aprendizado e o torna praticamente infinito.

Estamos em um ponto onde as métricas antigas de progresso — número de parâmetros e volume de conjunto de dados — deixam de ser primárias. Uma era de flexibilidade arquitetônica e profundidade intelectual chegou. Aqueles que hoje clamam por "tecnologia esgotada" simplesmente não perceberam que as regras do jogo mudaram. Não atingimos o teto, simplesmente terminamos a fundação e começamos a construir andares. E julgando pelo ritmo de implantação de agentes e ferramentas, esses andares crescerão muito mais rápido do que qualquer um esperava.

O ponto principal: Esqueça a "falta de dados". A verdadeira batalha agora é sobre quem ensinará o modelo a pensar mais tempo e de forma mais eficiente, não quem o alimentará com mais terabytes do Reddit.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…