Como ensinar um modelo de linguagem a escrever de forma indistinguível de uma redação humana
O Habr publicou uma análise de um desafio técnico interessante: como ensinar um modelo de linguagem a escrever não apenas bons textos, mas textos no estilo…
Processado por IA de Habr AI; editado por Hamidun News
Um prompt como 'escreva como um jornalista' não funciona. É a primeira coisa que qualquer um descobre ao tentar usar modelos de linguagem para gerar conteúdo para um veículo de mídia específico. O texto fica suave, gramaticalmente correto, às vezes até envolvente — mas não soa como a publicação pretendida. Soa como o ChatGPT fingindo ser um jornalista. Uma equipe de desenvolvedores se propôs a resolver exatamente este problema, com seu breakdown técnico detalhado aparecendo no Habr.
O autor do post—Lena, para quem esta é sua primeira publicação na plataforma—descreve a tarefa com honestidade desarmante. O objetivo não era que o modelo escrevesse 'bem'. O objetivo era que o texto fosse indistinguível do escrito por uma equipe editorial específica: um portal de cidade específico, um canal Telegram específico, uma publicação de nicho específica. A diferença entre essas duas formulações é um abismo que engole a maioria das tentativas de automatizar conteúdo.
Por que isso é difícil? O estilo de uma publicação não é um conjunto de regras que podem ser escritas em um prompt do sistema. São centenas de padrões implícitos: comprimento das frases, frequência de expressões coloquiais, preferência por certas construções sintáticas, maneiras características de começar e terminar parágrafos, até mesmo 'imperfeições' típicas—como o hábito de uma equipe editorial específica de abusar de travessões ou colocar pontos após cada item de lista. Os modelos de linguagem, por padrão, reduzem tudo isso a um 'texto genericamente bem escrito' que não pertence a ninguém.
A abordagem ingênua—um prompt detalhado descrevendo o estilo—atinge um teto quase imediatamente. Você pode escrever: 'use frases curtas, tom conversacional, comece com uma pergunta provocativa'. O modelo seguirá as instruções diligentemente, mas o resultado será uma caricatura, não uma imitação. É como pedir a um ator que interprete 'uma pessoa triste'—ele mostrará um estereótipo de tristeza, não uma pessoa triste específica. Um prompt estilístico descreve um gênero, não uma voz.
O próximo passo lógico é exemplos few-shot, onde os modelos recebem vários textos exemplares da publicação alvo diretamente no contexto da solicitação. Isso funciona notavelmente melhor, mas cria novos problemas. A janela de contexto não é infinita, e quanto mais exemplos você carrega, menos espaço permanece para a tarefa real. Além disso, o modelo começa a copiar frases e fatos específicos dos exemplos, em vez de abstrair o estilo. Memoriza a superfície, não a estrutura.
A solução verdadeiramente funcional, à qual a equipe chega, situa-se na intersecção de várias abordagens. O fine-tuning em um corpus de textos da publicação permite que o modelo 'absorva' padrões estilísticos no nível dos pesos, não do contexto. Mas também há armadilhas aqui: você precisa de um volume suficiente de dados, filtragem cuidadosa é necessária e—mais interessante ainda—você precisa de métricas que meçam similaridade estilística, não apenas qualidade de texto. Benchmarks padrão como perplexidade ou pontuação BLEU são inúteis aqui. A equipe desenvolveu suas próprias métricas, analisando distribuição de comprimento de sentença, diversidade lexical, frequência de marcadores estilísticos e outros parâmetros que juntos criam uma 'impressão digital' da publicação.
Este caso é interessante não apenas como um desafio técnico. Ele destaca uma questão fundamental sobre o futuro da mídia: se um modelo pode ser ensinado a imitar um estilo editorial indistinguivelmente, o que isso significa para o próprio conceito de voz editorial? Por um lado, é uma ferramenta poderosa de escala—uma pequena equipe editorial pode gerar mais conteúdo mantendo coerência estilística. Por outro lado, borra a linha entre autoria e imitação. Se um leitor não consegue distinguir o texto de um modelo do texto de um jornalista, quem é o autor?
Há também um lado prático. O mercado de conteúdo já está inundado de textos AI genéricos que todos soam iguais. Publicações capazes de manter uma voz única—mesmo com a ajuda de modelos bem ajustados—ganham uma vantagem competitiva. O paradoxo é que a tecnologia que ameaça despersonalizar o conteúdo pode se tornar um instrumento para preservar sua individualidade.
A publicação no Habr é essencialmente documentação aberta de uma abordagem que muitas empresas de mídia estão desenvolvendo atrás de portas fechadas. E é precisamente essa abertura que a torna valiosa. A tarefa de imitação estilística só se tornará mais complexa conforme as publicações começarem a exigir das ferramentas de AI não apenas competência, mas caráter. Aqueles que aprenderem a resolver este problema sistematicamente, em vez de através de reescritas infinitas de prompts, definirão o padrão de qualidade de conteúdo AI nos próximos anos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.