Google e OpenAI batem no limite: o que acontece quando faltam textos humanos na internet?
A IA generativa enfrenta uma dependência peculiar: os modelos requerem textos escritos por humanos, mas simultaneamente reduzem o incentivo para criá-los. Os…
Processado por IA de Habr AI; editado por Hamidun News
A principal vulnerabilidade da IA generativa é que ela prospera com base em texto humano enquanto destrói simultaneamente as condições em que esse texto é criado. Enquanto mecanismos de busca, chatbots e resumos de IA prometem aos usuários respostas rápidas sem visitar o site original, reduzem a receita de quem produz o material original. A curto prazo, os modelos vencem pela conveniência, mas a longo prazo arriscam-se a ficar sem uma base de treinamento de qualidade e começar a aprender com seus próprios reflexos.
O primeiro problema é a economia das publicações. Depois que o Google lançou o AI Overviews em maio de 2024, a busca começou a responder cada vez mais diretamente nos resultados, sem enviar leitores à fonte. De acordo com dados do Chartbeat publicados pelo Axios em 17 de março de 2026, pequenos sites com tráfego de 1 a 10 mil visualizações por dia perderam cerca de 60% de referências de busca em dois anos.
Sites de médio porte caíram 47%, os grandes 22%. Um estudo do Pew Research Center de 22 de julho de 2025 mostrou efeito semelhante no nível do comportamento dos usuários: quando os resultados de busca incluem um resumo de IA, as pessoas clicam em links comuns significativamente com menos frequência. Para mídia, fóruns, blogs de nicho e autores independentes, isso não é uma métrica abstrata, mas um golpe direto na publicidade, assinaturas e motivação para continuar escrevendo.
O segundo problema são os dados em si. Os grandes modelos de linguagem cresceram inicialmente em matrizes gigantescas de texto da internet. Os primeiros sistemas como GPT-3 tinham seu corpus de treinamento principal montado a partir da web e fontes relacionadas.
Mas o volume de conteúdo humano de qualidade não é infinito. Em junho de 2024, pesquisadores do Epoch AI estimaram que nas taxas de escalabilidade anteriores, a indústria poderia atingir o limite de texto publicamente disponível adequado para treinamento entre 2026 e 2032. É por isso que os principais players começaram a assinar acordos com Reddit, editoras e outros proprietários de grandes arquivos: o acesso aos dados se transformou de um detalhe técnico em um ativo estratégico.
Diante disso, a tentação de passar para dados sintéticos parece quase inevitável. Se não há texto real suficiente, faz sentido pedir a um modelo que gere material para o próximo. O problema é que esse esquema degrada gradualmente a qualidade.
Um artigo publicado na Nature em 25 de julho de 2024 descreve o efeito de colapso do modelo: com treinamento recursivo em dados gerados por máquina, os modelos começam a perder fatos raros, suavizar padrões complexos e amplificar erros e vieses já existentes. É como copiar a mesma página várias vezes: o significado geral ainda é visível, mas os detalhes desaparecem a cada iteração. Até a OpenAI reconheceu publicamente que dados sintéticos podem ajudar em casos específicos, mas não parecem uma substituição completa para um corpus diverso de texto gerado por humanos.
Há ainda outra armadilha: separar texto humano de texto gerado por máquina é muito mais difícil na prática do que parece. Detectores de conteúdo de IA ainda cometem erros, especialmente em textos curtos, editados ou estilisticamente neutros. Alguns estudos mostraram altas taxas de falsos positivos em textos de pessoas para quem o inglês não é a língua nativa.
Isso significa que a indústria terá dificuldade em simplesmente 'limpar a internet' e selecionar apenas dados humanos confiáveis. Além disso, avaliações acadêmicas recentes já estão notando que a participação de assistência de IA em novas publicações está crescendo rapidamente, e o próprio conteúdo online está se tornando mais monótono em significado e mais estéril em tom. Em outras palavras, o problema não é apenas a quantidade de texto, mas sua diversidade.
Se esse ciclo não for interrompido, a internet começará a funcionar pior para todos os participantes. Autores publicarão material aprofundado com menos frequência porque fica mais difícil monetizá-lo. Plataformas continuarão preenchendo resultados de busca com breves resumos de IA, economizando um clique para os usuários, mas empobrecendo o ecossistema de fontes.
E desenvolvedores de modelos receberão cada vez mais conteúdo secundário que soa confiante mas carrega menos conhecimento novo. A solução parece estar não em um volume ainda maior de geração, mas em preservar incentivos para a escrita humana: através de pagamentos de licenças, atribuição transparente, uso mais cuidadoso de resumos de IA e priorização da qualidade dos dados sobre a escala bruta. Caso contrário, a IA realmente acabará na armadilha que construiu para si mesma.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.