Bloomberg Tech→ original

Pioneiro da geração de imagens mira uma revolução no AI textual

Stefano Ermon, um dos criadores da tecnologia de modelos de difusão que está por trás de geradores de imagem como Stable Diffusion e DALL-E, apresentou um…

Processado por IA de Bloomberg Tech; editado por Hamidun News
Pioneiro da geração de imagens mira uma revolução no AI textual
Fonte: Bloomberg Tech. Colagem: Hamidun News.
◐ Ouvir artigo

Quando um cientista cujas ideias moldaram toda uma indústria de mídia generativa decide pivotar para IA de texto, o mercado deve prestar atenção. Stefano Ermon, professor na Universidade de Stanford e um dos principais pesquisadores em modelos de difusão, apresentou uma tecnologia através de sua startup Inception que promete acelerar significativamente sistemas de IA baseados em texto—desde chatbots até assistentes corporativos.

Para compreender o escopo dessa mudança, precisamos nos lembrar de quem é Ermon e por que seu nome tem tanto peso. Suas pesquisas em modelos generativos baseados em score tornaram-se um dos fundamentos sobre os quais foram construídos Stable Diffusion, DALL-E e dezenas de outros serviços de criação de imagens e vídeos. Modelos de difusão—a tecnologia que permite converter descrições de texto em imagens fotorrealistas—devem muito de sua existência ao trabalho de Ermon e seus colegas. Isso não é meramente uma contribuição acadêmica: estamos falando de tecnologia que gera bilhões de dólares em receita para empresas em todo o mundo.

Agora Ermon está mirando territórios firmemente controlados pela OpenAI, Google, Anthropic e Meta—processamento de linguagem natural. Sua startup Inception, sobre a qual pouco era conhecido até recentemente, apresentou tecnologia capaz de acelerar geração de texto em modelos de linguagem. Embora os detalhes permaneçam incompletos, segundo Bloomberg, a abordagem representa uma abordagem fundamentalmente nova para arquitetura de inferência—a parte do modelo responsável por entregar respostas aos usuários em tempo real.

A velocidade de inferência é um dos desafios centrais na indústria de grandes modelos de linguagem. Cada vez que você faz uma pergunta ao ChatGPT ou Claude, o modelo gera uma resposta token por token, um processo que requer enormes recursos computacionais. Empresas gastam bilhões de dólares em clusters de GPU para garantir tempos de resposta aceitáveis para centenas de milhões de usuários. Qualquer tecnologia capaz de reduzir o tempo de geração em até dezenas de por cento tem valor econômico colossal. É por isso que dezenas de startups e laboratórios de pesquisa estão agora focados em otimização de inferência—desde Groq com seus chips especializados até várias soluções de software para quantização e decodificação especulativa.

Que Ermon traga experiência do mundo dos modelos de difusão para essa corrida pode se mostrar uma vantagem inesperada. Modelos de difusão funcionam fundamentalmente de forma diferente dos transformers autorregressivos: em vez de geração sequencial de tokens, eles refinam iterativamente resultados a partir do ruído. Pesquisadores vêm experimentando há anos com a transferência de princípios de difusão para geração de texto, e alguns resultados parecem promissores. Se Inception encontrou uma maneira de aplicar essas ideias para aceleração prática de modelos de texto, isso poderia representar um verdadeiro avanço—não uma melhoria evolutiva, mas uma mudança de paradigma.

Dito isso, o ceticismo é justificado. O mercado de startups de IA está inundado de reivindicações ambiciosas, e nem todas elas resistem à realidade em escala. É uma coisa demonstrar resultados impressionantes em um ambiente de laboratório; outra bem diferente é implantar uma tecnologia para milhões de usuários mantendo a qualidade das respostas. Grandes players como OpenAI e Google possuem não apenas a infraestrutura mais poderosa, mas também equipes massivas de engenheiros que refinaram seus sistemas ao longo dos anos. Competir com eles em seu próprio território é uma tarefa de uma ordem completamente diferente da publicação de um artigo de pesquisa.

Não obstante, a reputação e o histórico de Ermon fazem de Inception uma das startups mais interessantes no cenário atual. O mercado de infraestrutura para IA de inferência é avaliado em dezenas de bilhões de dólares e está crescendo rapidamente. Se a tecnologia de Inception realmente funciona, a empresa tem vários caminhos estratégicos: licenciamento para grandes provedores, criação de seu próprio serviço de API, ou, igualmente provável, aquisição por um dos gigantes da tecnologia.

A história de Inception também reflete uma tendência mais ampla: as fronteiras entre diferentes áreas de IA generativa estão se borrando. Ideias nascidas no mundo das imagens migram para texto, e vice-versa. Multimodalidade deixa de ser meramente um termo de marketing e se torna realidade de engenharia. Se um cientista que transformou a geração de imagens pode influenciar igualmente de forma radical o processamento de texto, isso será a melhor evidência de que a indústria de IA ainda está longe da maturidade—e os avanços mais interessantes podem estar adiante.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…