IEEE Spectrum AI→ original

A nova fronteira da IA: dos dados à experiência de interação

A IA moderna alcançou resultados impressionantes graças ao big data. No entanto, o progresso futuro exige ambientes de treinamento interativos, onde os…

Processado por IA de IEEE Spectrum AI; editado por Hamidun News
A nova fronteira da IA: dos dados à experiência de interação
Fonte: IEEE Spectrum AI. Colagem: Hamidun News.
◐ Ouvir artigo

A última década, o progresso em inteligência artificial foi medido pela escala: modelos maiores, conjuntos de dados maiores e mais poder computacional. Essa abordagem levou a avanços impressionantes em modelos de linguagem grandes (LLMs). Em apenas cinco anos, a IA deu um salto de modelos como GPT-2, que mal conseguiam imitar coerência, para sistemas como GPT-4, que podem raciocinar e participar de diálogos significativos. E agora protótipos iniciais de agentes de IA que podem navegar por bases de código ou navegar em páginas da web apontam para uma nova fronteira inteiramente.

Mas a escala sozinha só pode levar a IA tão longe. O próximo salto não virá apenas do aumento do tamanho dos modelos. Virá da combinação de dados cada vez mais alta qualidade com os mundos que construímos para treinar modelos. E a pergunta mais importante se torna: como são as salas de aula para IA?

Nos últimos meses, o Vale do Silício fez suas apostas, e laboratórios estão investindo bilhões na construção de tais salas de aula, chamadas ambientes de aprendizado por reforço (RL). Esses ambientes permitem que máquinas experimentem, falhem e melhorem em espaços digitais realistas.

A história da IA moderna se desdobrou em eras, cada uma definida pelo tipo de dados que os modelos consumiram. Primeiro veio a era do pré-treinamento em conjuntos de dados em escala de internet. Esses dados públicos permitiram que máquinas imitassem linguagem humana reconhecendo padrões estatísticos. Depois vieram dados combinados com aprendizado por reforço a partir de feedback humano — um método que usa trabalhadores terceirizados para avaliar respostas de LLM — o que tornou a IA mais útil, responsiva e alinhada com preferências humanas.

Hoje, os dados permanecem como fundação. É a matéria-prima a partir da qual a inteligência é construída. Mas estamos entrando em uma nova fase onde dados sozinhos não são mais suficientes. Para desbloquear a próxima fronteira, devemos combinar dados de alta qualidade com ambientes que permitam interação ilimitada, feedback contínuo e aprendizado através da ação. Ambientes RL não substituem dados; eles amplificam o que dados podem fazer, permitindo que modelos apliquem conhecimento, testem hipóteses e refinem comportamento em condições realistas.

Em um ambiente RL, um modelo aprende através de um loop simples: observa o estado do mundo, toma uma ação e recebe uma recompensa que indica se aquela ação ajudou a atingir o objetivo. Ao longo de muitas iterações, o modelo gradualmente descobre estratégias que levam a melhores resultados. A mudança crucial é que o aprendizado se torna interativo — modelos não apenas predizem o próximo token, mas melhoram através de tentativa, erro e feedback.

Por exemplo, modelos de linguagem já podem gerar código em uma configuração simples de chat. Coloque-os em um ambiente de codificação ao vivo onde possam obter contexto, executar seu código, depurar erros e refinar sua solução, e algo muda. Eles saem de aconselhar para resolução de problemas autônoma.

Em um mundo dirigido por software, a capacidade da IA de gerar e testar código em nível de produção em repositórios vastos será uma mudança séria em capacidades. Este salto não acontecerá apenas ao aumentar conjuntos de dados; acontecerá por causa de ambientes imersivos onde agentes podem experimentar, tropeçar e aprender através da iteração — muito como fazem os programadores humanos. O mundo real do desenvolvimento é confuso: programadores têm que lidar com erros mal definidos, bases de código confusas e requisitos vagos.

Treinar IA para lidar com essa confusão é a única maneira pela qual ela poderia passar de produzir tentativas propensas a erros para criar soluções consistentes e confiáveis.

Navegação na web também é confusa. Pop-ups, muros de login, links quebrados e informações desatualizadas estão tecidas em fluxos de trabalho de navegação cotidianos. Humanos lidam com essas falhas quase instintivamente, mas IA só pode desenvolver essa capacidade treinando em ambientes que imitam a imprevisibilidade da Internet. Agentes precisam aprender a se recuperar de erros, reconhecer e superar obstáculos de interface de usuário, e executar fluxos de trabalho multi-etapas em aplicativos amplamente utilizados.

Cada grande salto no desenvolvimento de IA dependeu de infraestrutura invisível, como anotadores rotulando conjuntos de dados, pesquisadores treinando modelos de recompensa e engenheiros construindo andaimes para LLMs usarem ferramentas e ações. Encontrar grandes volumes de conjuntos de dados de alta qualidade uma vez foi um gargalo em IA, e resolvê-lo provocou a onda anterior de progresso. Hoje, o gargalo não são dados — é criar ambientes RL que sejam ricos, realistas e verdadeiramente úteis.

O próximo estágio do progresso em IA não será uma questão de sorte de escala. Será o resultado de combinar uma base sólida de dados com ambientes interativos que ensinam máquinas a agir, se adaptar e raciocinar em cenários complexos do mundo real. Sandboxes de codificação, playgrounds de SO e navegador, e simulação segura transformarão predição em competência.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…