Habr AI→ original

«Rerayt-Zavod» a montré la limite de la réécriture par AI : les règles se transmettent, pas la voix éditoriale

L’équipe de «Rerayt-Zavod» a expliqué pourquoi la réécriture de textes d’actualité par AI peut être factuellement exacte et structurellement correcte, sans…

Traité par IA depuis Habr AI ; édité par Hamidun News
«Rerayt-Zavod» a montré la limite de la réécriture par AI : les règles se transmettent, pas la voix éditoriale
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Le projet « Rewrite-Factory », qui automatise la réécriture de nouvelles pour les médias régionaux, a décrit la principale limitation de son approche : l'IA sait déjà comment reproduire la structure du texte et les règles éditoriales formelles, mais ne saisit pas toujours la voix d'une publication spécifique. En utilisant des exemples de matériaux de Fontanka, les développeurs ont montré que le facteur décisif n'est pas le modèle, mais le choix précis des mots.

Test sur Fontanka

Les développeurs ont entraîné le système sur le style de Fontanka et ont traité plusieurs textes sur le même événement — l'arrestation d'un adolescent de 16 ans à Oufa soupçonné de préparer une attaque terroriste. La réécriture générée s'est avérée grammaticalement correcte, logique et factuellement exacte : le chapeau était assemblé correctement, l'attribution était en place, les détails clés n'ont pas été perdus. Mais à côté du texte réel de Fontanka, il est rapidement devenu clair que le modèle écrit comme une nouvelle en général, et non comme une publication spécifique.

La différence clé s'est résumée à un seul mot. L'original contenait « подросток » (adolescent), tandis que dans la publication de Fontanka on utilisait « мальчик » (garçon) et « школьник » (écolier). Ce choix ne change pas le contenu factuel de la nouvelle, mais en change le ton : aux côtés de la mention du recrutement et du terrorisme, surgit une image enfantine qui intensifie la tension sans jugement auctorial direct.

Un terme neutre transmet le fait, tandis qu'un mot éditorial plus précis transmet également la distance auctoriale, le rythme et le poids émotionnel de la phrase.

«

Garçon » au lieu d'« adolescent » — c'est l'intuition éditoriale.

Où les règles se cassent

Le projet utilise une approche basée sur les aspects pour le style : au lieu d'une grande invite, le modèle reçoit un ensemble de caractéristiques d'un média spécifique — structure, ton, vocabulaire, titres et autres paramètres. Cette approche fonctionne bien lorsque le style peut être décrit comme une règle. Par exemple, on peut établir que le chapeau commence par un fait, l'attribution est donnée une seule fois, les phrases sont en moyenne courtes, et le toponyme officiel « Saint-Pétersbourg » est mieux remplacé par « Pétersbourg ».

Tout cela peut être mesuré, vérifié et reproduit avec une stabilité assez grande sur de nouveaux textes. Le problème commence là où le style ne consiste pas en interdictions et instructions, mais en micro-choix dans un contexte spécifique. Une formule comme « ton neutre-informatif avec éléments de familiarité » semble plausible, mais dit presque rien sur le mot exact qu'un éditeur choisirait dans une histoire sensible.

La même chose s'applique à la construction « selon l'enquête » : ce n'est pas seulement une source, mais une façon d'intégrer la distance dans la phrase elle-même. Ces décisions ne se réduisent pas à un ensemble stable de règles, car dans une autre situation la même publication pourrait écrire beaucoup plus sèchement.

Ce qu'ils réparent ensuite

Les développeurs ne considèrent pas cela comme un bogue au sens strict. Plutôt, il s'agit des limitations de la méthode elle-même : la structure est transmise par des instructions, tandis que la voix est généralement transmise par des exemples. C'est pourquoi le produit renforce maintenant non pas des règles abstraites, mais le contexte autour de la génération. La logique est simple : un modèle imite mieux une technique éditoriale observée qu'il a vue que de suivre une description verbale d'une intonation subtile qui ne peut pas être formalisée de manière fiable pour tous les cas. En pratique, cela déplace le focus du travail de l'invite à la sélection d'exemples pertinents.

  • Le nombre d'exemples à imiter augmente de 3 à 10–15.
  • Les exemples sont sélectionnés par type d'histoire : crime avec crime, urgence avec urgence.
  • Le modèle est vérifié en plus pour le respect des interdictions explicites du guide de style.
  • L'agent vérifie non seulement l'exactitude factuelle mais aussi l'intégrité du transfert des faits dans la réécriture.

Parallèlement, l'équipe affine le positionnement du MVP : le système doit reproduire avec précision la structure et les caractéristiques formelles du style, tandis que la voix est seulement approximative. C'est un cadre plus honnête pour les salles de rédaction qui ont besoin de réécritures rapides et fonctionnelles sans promesses d'indistinguabilité complète d'un auteur vivant. Selon l'évaluation de l'équipe, pour la plupart des médias régionaux, cela peut déjà être suffisant, car leurs différences de style sont généralement plus faibles que celles de Fontanka. En d'autres termes, le produit promet la discipline du texte et la vitesse, pas la magie d'un alignement complet avec une publication spécifique.

Ce que cela signifie

L'histoire du « garçon » par rapport à l'« adolescent » montre une frontière importante pour les outils IA éditoriaux. Ils sont déjà capables d'économiser du temps sur le travail de routine et de reproduire assez précisément la forme du texte, mais les décisions d'intonation subtiles restent pour l'instant une zone d'édition humaine. Pour les produits d'actualités, cela signifie quelque chose de simple : la réécriture automatisée fonctionne si vous promettez la vitesse et la discipline du texte, pas la reproduction complète de la voix d'un média spécifique. C'est sur cette distinction que les attentes réalistes concernant l'automatisation de la salle de rédaction doivent maintenant être construites.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…