«Rerayt-Zavod» mostrou o limite da reescrita por AI: as regras podem ser transmitidas, a voz editorial não
A equipe do «Rerayt-Zavod» explicou por que a reescrita de notícias por AI pode ser factualmente precisa e estruturalmente correta e, ainda assim, não soar…
Processado por IA de Habr AI; editado por Hamidun News
O projeto "Rewrite-Factory", que automatiza a reescrita de notícias para mídia regional, descreveu a principal limitação de sua abordagem: a IA já consegue reproduzir a estrutura do texto e as regras editoriais formais, mas nem sempre capta a voz de uma publicação específica. Usando exemplos de materiais do Fontanka, os desenvolvedores mostraram que o fator decisivo não é o template, mas a escolha precisa de palavras.
Teste no Fontanka
Os desenvolvedores treinaram o sistema no estilo do Fontanka e processaram vários textos sobre o mesmo evento — a detenção de um adolescente de 16 anos em Ufa suspeito de preparar um ataque terrorista. A reescrita gerada ficou gramaticalmente correta, lógica e factualmente precisa: o lide foi montado corretamente, a atribuição estava no lugar, detalhes-chave não foram perdidos. Mas ao lado do texto real do Fontanka, rapidamente ficou claro que o modelo escreve como uma notícia em geral, não como uma publicação específica.
A diferença-chave resumiu-se a uma palavra. No original havia "подросток" (adolescente), enquanto na publicação do Fontanka usava-se "мальчик" (menino) e "школьник" (escolar). Essa escolha não altera o conteúdo factual da notícia, mas muda seu tom: junto com a menção de recrutamento e terrorismo, surge uma imagem infantil que intensifica a tensão sem julgamento autoral direto.
Um termo neutro transmite o fato, enquanto uma palavra editorial mais precisa também transmite distância autoral, ritmo e peso emocional da frase.
"Menino" em vez de "adolescente" — isso é intuição editorial.
Onde as regras se quebram
O projeto usa uma abordagem baseada em aspectos para o estilo: em vez de um grande prompt, o modelo recebe um conjunto de características de um veículo de mídia específico — estrutura, tom, vocabulário, manchetes e outros parâmetros. Essa abordagem funciona bem onde o estilo pode ser descrito como uma regra. Por exemplo, pode-se estabelecer que o lide começa com um fato, a atribuição é dada uma vez, as frases têm comprimento médio curto, e o topônimo oficial "São Petersburgo" é melhor substituído por "Petersburgo".
Tudo isso pode ser medido, verificado e reproduzido com bastante estabilidade em novos textos. O problema começa onde o estilo não consiste em proibições e instruções, mas em micro-escolhas em um contexto específico. Uma fórmula como "tom neutro-informativo com elementos de coloquialidade" soa plausível, mas diz quase nada sobre qual palavra exata um editor escolheria em uma história sensível.
O mesmo se aplica à construção "segundo a investigação": não é apenas uma fonte, mas uma forma de embutir distância na própria frase. Essas decisões não se reduzem a um conjunto estável de regras, porque em outra situação a mesma publicação poderia escrever muito mais secamente.
O que estão consertando a seguir
Os desenvolvedores não consideram isso um bug no sentido estrito. Antes, trata-se das limitações do próprio método: a estrutura é transmitida através de instruções, enquanto a voz é geralmente transmitida através de exemplos. Por isso o produto agora fortalece não regras abstratas, mas o contexto ao redor da geração. A lógica é simples: um modelo imita melhor uma técnica editorial observada que viu do que segue uma descrição verbal de uma intonação sutil que não pode ser formalizada confiadamente para todos os casos. Na prática, isso desloca o foco do trabalho do prompting para a seleção de exemplos relevantes.
- O número de exemplos para imitar aumenta de 3 para 10–15.
- Os exemplos são selecionados por tipo de história: crime com crime, emergência com emergência.
- O modelo é verificado adicionalmente para conformidade com proibições explícitas do guia de estilo.
- O agente verifica não apenas a correção factual mas também a completude da transferência de fatos na reescrita.
Paralelamente, a equipe está refinando o posicionamento do MVP: o sistema deve reproduzir com precisão a estrutura e as características formais do estilo, enquanto a voz é apenas aproximada. Este é um framework mais honesto para redações que precisam de reescritas rápidas e funcionais sem promessas de indistinguibilidade completa de um autor vivo. Segundo a avaliação da equipe, para a maioria das mídias regionais isso pode já ser suficiente, porque suas diferenças de estilo são geralmente mais fracas que as do Fontanka. Em outras palavras, o produto promete disciplina de texto e velocidade, não a magia do alinhamento completo com uma publicação específica.
O que isto significa
A história de "menino" versus "adolescente" mostra uma fronteira importante para ferramentas de IA editorial. Elas já conseguem economizar tempo em trabalho rotineiro e reproduzem forma de texto com bastante precisão, mas decisões de intonação sutis ainda permanecem uma zona de edição humana. Para produtos de notícias, isso significa algo simples: a reescrita automatizada funciona se você prometer velocidade e disciplina de texto, não reprodução completa da voz de um veículo de mídia específico. É nesta distinção que expectativas realistas para automação de newsroom devem ser construídas agora.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.