Cómo enseñar a un modelo de lenguaje a escribir de forma indistinguible de una redacción humana
En Habr apareció un análisis de un reto técnico interesante: cómo enseñar a un modelo de lenguaje a escribir no solo buenos textos, sino textos con el estilo…
Procesado por IA desde Habr AI; editado por Hamidun News
Un prompt como 'escribe como un periodista' no funciona. Es lo primero que descubre cualquiera que intente usar modelos de lenguaje para generar contenido para una publicación específica. El texto resulta fluido, gramaticalmente correcto, a veces incluso atractivo—pero no suena como la publicación deseada. Suena como ChatGPT fingiendo ser periodista. Un equipo de desarrolladores se propuso resolver exactamente este problema, con su análisis técnico detallado apareciendo en Habr.
El autor del post—Lena, para quien esta es su primera publicación en la plataforma—describe la tarea con honestidad desarmante. El objetivo no era que el modelo escribiera 'bien'. El objetivo era que el texto fuera indistinguible del escrito por un equipo editorial específico: un portal de ciudad específico, un canal Telegram específico, una publicación de nicho específica. La diferencia entre estas dos formulaciones es un abismo que engulle la mayoría de los intentos de automatizar contenido.
¿Por qué es esto difícil? El estilo de una publicación no es un conjunto de reglas que se pueden escribir en un prompt del sistema. Son cientos de patrones implícitos: longitud de oraciones, frecuencia de expresiones coloquiales, preferencia por ciertas construcciones sintáticas, formas características de comenzar y terminar párrafos, incluso 'imperfecciones' típicas—como el hábito de un equipo editorial específico de abusar de guiones o poner puntos después de cada elemento de lista. Los modelos de lenguaje por defecto promedian todo esto a un 'texto genéricamente bien escrito' que no pertenece a nadie.
El enfoque ingenuo—un prompt detallado describiendo el estilo—alcanza un techo casi inmediatamente. Puedes escribir: 'usa oraciones cortas, tono conversacional, comienza con una pregunta provocativa'. El modelo seguirá diligentemente las instrucciones, pero el resultado será una caricatura, no una imitación. Es como pedirle a un actor que interprete 'una persona triste'—te mostrará un estereotipo de tristeza, no una persona triste específica. Un prompt estilístico describe un género, no una voz.
El siguiente paso lógico son ejemplos few-shot, donde los modelos reciben varios textos ejemplares de la publicación objetivo directamente en el contexto de la solicitud. Esto funciona notablemente mejor, pero crea nuevos problemas. La ventana de contexto no es infinita, y cuantos más ejemplos cargues, menos espacio queda para la tarea real. Además, el modelo comienza a copiar frases y hechos específicos de los ejemplos en lugar de abstraer el estilo. Memoriza la superficie, no la estructura.
La solución verdadeiramente funcional, a la que llega el equipo, se encuentra en la intersección de varios enfoques. El fine-tuning en un corpus de textos de la publicación permite que el modelo 'absorba' patrones estilísticos a nivel de pesos, no de contexto. Pero también hay trampas aquí: necesitas un volumen suficiente de datos, se requiere una filtración cuidadosa, y—lo más interesante—necesitas métricas que midan similitud estilística, no solo calidad de texto. Los benchmarks estándar como perplejidad o puntuación BLEU son inútiles aquí. El equipo desarrolló sus propias métricas, analizando distribución de longitud de oraciones, diversidad léxica, frecuencia de marcadores estilísticos y otros parámetros que en conjunto crean una 'huella digital' de la publicación.
Este caso es interesante no solo como un desafío técnico. Destaca una pregunta fundamental sobre el futuro de los medios: si un modelo puede ser enseñado a imitar un estilo editorial indistinguiblemente, ¿qué significa esto para el mismo concepto de voz editorial? Por un lado, es una poderosa herramienta de escala—un pequeño equipo editorial puede generar más contenido manteniendo coherencia estilística. Por otro lado, difumina la línea entre autoría e imitación. Si un lector no puede distinguir el texto de un modelo del texto de un periodista, ¿quién es el autor?
También hay un lado práctico. El mercado de contenido ya está inundado de textos AI genéricos que todos suena igual. Las publicaciones capaces de mantener una voz única—incluso con la ayuda de modelos bien ajustados—ganan una ventaja competitiva. La paradoja es que la tecnología que amenaza con despersonalizar el contenido puede convertirse en un instrumento para preservar su individualidad.
La publicación en Habr es esencialmente documentación abierta de un enfoque que muchas empresas de medios están desarrollando a puerta cerrada. Y es precisamente esta apertura la que la hace valiosa. La tarea de imitación estilística solo se volverá más compleja a medida que las publicaciones comiencen a exigir de las herramientas de IA no solo competencia, sino carácter. Aquellos que aprendan a resolver este problema sistemáticamente, en lugar de a través de reescrituras infinitas de prompts, establecerán el estándar de calidad de contenido de IA en los próximos años.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.