Jiqizhixin (机器之心)→ original

Transformer não é mais necessário: ex-vice-presidente da OpenAI constrói um novo império por um bilhão

Parece que os corredores da OpenAI estão ficando mais vazios. O êxodo de funcionários-chave da empresa de Sam Altman se transformou de uma infeliz fuga de…

Processado por IA de Jiqizhixin (机器之心); editado por Hamidun News
Transformer não é mais necessário: ex-vice-presidente da OpenAI constrói um novo império por um bilhão
Fonte: Jiqizhixin (机器之心). Colagem: Hamidun News.
◐ Ouvir artigo

Parece que os corredores da OpenAI estão ficando mais vazios. O êxodo de funcionários-chave da empresa de Sam Altman se transformou de uma infeliz fuga de talentos em uma formação completa de uma nova indústria. Desta vez, as manchetes foram agitadas por um ex-vice-presidente de Pesquisa, que não apenas saiu "para o vazio", mas anunciou a criação de uma startup com ambições de um bilhão de dólares.

E seu objetivo principal soa quase sacrílego para a comunidade de IA moderna: ele planeja desafiar a arquitetura Transformer, que é o fundamento de tudo o que chamamos de inteligência artificial moderna. Vamos ser honestos: Transformer, presenteado ao mundo por pesquisadores do Google em 2017, tornou-se o padrão ouro. Todos esses GPTs, Claudes e Geminis são essencialmente apenas variações de uma mesma ideia.

Mas essa arquitetura tem problemas fundamentais com escalabilidade de memória e eficiência computacional. Quanto mais longo o contexto, mais dificuldade as redes neurais têm em "respirar". Os antigos líderes da OpenAI, que estavam na origem do treinamento dos modelos mais poderosos, entendem perfeitamente que aumentar infinitamente o número de GPUs é um beco sem saída.

Para alcançar uma verdadeira inteligência artificial geral, você precisa de algo mais elegante e eficiente do que a "atenção" crua em que a atual pilha de tecnologia se baseia. A soma de 1 bilhão de dólares que o novo projeto planeja atrair não é apenas um número bonito para manchetes. Este é o preço de entrada nas grandes ligas.

Em um mundo onde treinar um modelo custa centenas de milhões, tentar criar uma arquitetura alternativa requer enormes recursos para experimentos com hardware e dados. Já vimos tentativas de implementar State Space Models (SSM) ou arquiteturas como Mamba, mas nenhuma delas conseguiu derrotar o rei. O fato de que o homem responsável pelo "pós-treinamento" na OpenAI está assumindo esse desafio sugere que ele tem um entendimento concreto de exatamente onde a arquitetura antiga começa a quebrar.

Essa saída faz parte de uma tendência mais ampla. Estamos observando como a "máfia da OpenAI" se espalha por Silicon Valley, criando concorrência que Microsoft e Google poderiam apenas sonhar. Anthropic foi o primeiro sinal, SSI (Safe Superintelligence) de Ilya Sutskever o segundo.

Agora vemos a terceira onda: aqueles que querem mudar não apenas os métodos de treinamento ou questões de segurança, mas a própria base matemática das redes neurais. Se essa startup conseguir provar que sua abordagem funciona melhor em longas distâncias, a OpenAI se verá na posição de uma empresa que investiu bilhões em aperfeiçoar o motor a vapor no momento em que o motor de combustão interna apareceu. Os investidores parecem dispostos a correr o risco.

No vale agora há uma mistura estranha de euforia e medo de perder "a próxima grande coisa". Todos entendem que o sucesso atual dos LLMs poderia ser um máximo local. E enquanto Sam Altman está ocupado transformando a OpenAI em uma corporação comercial e procurando trilhões para chips, seus antigos engenheiros estão tentando reinventar a roda.

Esta é uma história clássica de Davi e Golias, exceto que Davi tem um bilhão de dólares de capital de risco em seu bolso e a melhor experiência da indústria. O que isso significa para nós? Provavelmente, estamos à beira de uma mudança de paradigma.

Se a nova arquitetura for mais eficiente, a IA será não apenas mais inteligente, mas também mais barata, mais acessível e possivelmente mais autônoma. É hora de nos acostumarmos com a ideia de que a sigla GPT poderia se tornar um anacrônico como Netscape ou AltaVista. No mundo da IA, seis meses é uma era, e um ano é uma eternidade.

E essa eternidade parece pertencer àqueles que ousaram pressionar o botão "delete" no código Transformer. A questão-chave: A nova arquitetura conseguirá escalar tão previsivamente quanto Transformer, ou veremos outro "bubble" de ambições que estoura contra a dura realidade da computação distribuída?

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…