Habr AI→ оригинал

Как научить языковую модель писать неотличимо от живой редакции

На Хабре появился разбор интересной технической задачи: как научить языковую модель писать не просто хорошие тексты, а тексты в стиле конкретного издания — горо

Как научить языковую модель писать неотличимо от живой редакции
Источник: Habr AI. Коллаж: Hamidun News.

Промпт «пиши как журналист» не работает. Это первое, что выясняет любой, кто пытался использовать языковые модели для генерации контента под конкретное медиа. Текст получается гладким, грамотным, иногда даже увлекательным — но он не звучит как нужное издание. Он звучит как ChatGPT, притворяющийся журналистом. Именно эту проблему взялась решать команда разработчиков, чей подробный технический разбор появился на Хабре.

Автор поста — Лена, для которой это первая публикация на платформе — описывает задачу с обезоруживающей честностью. Цель была не в том, чтобы модель писала «хорошо». Цель была в том, чтобы текст нельзя было отличить от написанного конкретной редакцией: конкретным городским порталом, конкретным Telegram-каналом, конкретным нишевым изданием. Разница между этими двумя формулировками — пропасть, в которую проваливаются большинство попыток автоматизировать контент.

Почему это вообще сложно? Стиль издания — это не набор правил, которые можно записать в системный промпт. Это сотни неявных паттернов: длина предложений, частота использования разговорных оборотов, предпочтение определённых синтаксических конструкций, характерные способы начинать и заканчивать абзацы, даже типичные «несовершенства» — вроде привычки конкретной редакции злоупотреблять тире или ставить точку после каждого элемента списка. Языковые модели по умолчанию усредняют всё это до некоего «среднего хорошего текста», который не принадлежит никому.

Наивный подход — подробный промпт с описанием стиля — упирается в потолок почти сразу. Можно написать: «используй короткие предложения, разговорный тон, начинай с провокационного вопроса». Модель послушно выполнит инструкции, но результат будет карикатурой, а не имитацией. Это как попросить актёра сыграть «грустного человека» — он покажет вам стереотип грусти, а не конкретного грустного человека. Стилистический промпт описывает жанр, но не голос.

Следующий логичный шаг — few-shot примеры, когда модели дают несколько образцовых текстов целевого издания прямо в контексте запроса. Это работает заметно лучше, но создаёт новые проблемы. Контекстное окно не бесконечно, и чем больше примеров вы загружаете, тем меньше места остаётся для самого задания. Кроме того, модель начинает копировать конкретные фразы и факты из примеров, а не абстрагировать стиль. Она запоминает поверхность, а не структуру.

По-настоящему рабочее решение, к которому приходит команда, лежит на пересечении нескольких подходов. Файн-тюнинг на корпусе текстов издания позволяет модели «впитать» стилистические паттерны на уровне весов, а не контекста. Но и здесь есть подводные камни: нужен достаточный объём данных, нужна тщательная фильтрация, и — что особенно интересно — нужны метрики, которые измеряют стилистическое сходство, а не просто качество текста. Стандартные бенчмарки вроде перплексии или BLEU-скора здесь бесполезны. Команда разрабатывала собственные метрики, анализирующие распределение длин предложений, лексическое разнообразие, частоту стилистических маркеров и другие параметры, которые в совокупности создают «отпечаток» издания.

Этот кейс интересен не только как техническая задача. Он высвечивает фундаментальный вопрос о будущем медиа: если модель можно научить неотличимо имитировать стиль редакции, что это означает для самого понятия редакционного голоса? С одной стороны, это мощный инструмент масштабирования — небольшая редакция может генерировать больше контента, сохраняя стилистическую целостность. С другой стороны, это размывает границу между авторством и имитацией. Если читатель не может отличить текст модели от текста журналиста, кто автор?

Есть и практическая сторона. Рынок контента уже наводнён генерическими AI-текстами, которые все звучат одинаково. Издания, способные сохранить уникальный голос — пусть даже с помощью тонко настроенных моделей — получают конкурентное преимущество. Парадокс в том, что технология, которая угрожает обезличить контент, может стать инструментом сохранения его индивидуальности.

Публикация на Хабре — это, по сути, открытая документация подхода, который многие медиакомпании разрабатывают за закрытыми дверями. И именно эта открытость делает её ценной. Задача стилистической имитации будет только усложняться по мере того, как издания начнут требовать от AI-инструментов не просто компетентности, а характера. Те, кто научится решать эту задачу системно, а не через бесконечное переписывание промптов, определят стандарт качества AI-контента на ближайшие годы.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…