Google y OpenAI chocan contra el límite: ¿qué sucederá si escasea el texto humano en internet?
La IA generativa enfrenta una dependencia peculiar: los modelos requieren texto escrito por humanos, pero simultáneamente reducen el incentivo para crearlo…
Procesado por IA desde Habr AI; editado por Hamidun News
La principal vulnerabilidad de la IA generativa es que prospera gracias al texto humano mientras destruye simultáneamente las condiciones en las que ese texto se crea. Mientras los motores de búsqueda, chatbots y resúmenes de IA prometan a los usuarios respuestas rápidas sin visitar el sitio original, reducen los ingresos de quienes producen el material original. A corto plazo, los modelos ganan por conveniencia, pero a largo plazo corren el riesgo de quedarse sin una base de entrenamiento de calidad y comenzar a aprender de sus propios reflejos.
El primer problema es la economía de las publicaciones. Después de que Google lanzara AI Overviews en mayo de 2024, la búsqueda comenzó a responder cada vez más directamente en los resultados, sin enviar a los lectores a la fuente. Según datos de Chartbeat publicados por Axios el 17 de marzo de 2026, los sitios pequeños con tráfico de 1 a 10 mil visualizaciones por día perdieron aproximadamente el 60% de las referencias de búsqueda en dos años.
Los sitios medianos cayeron un 47%, los grandes un 22%. Un estudio del Pew Research Center del 22 de julio de 2025 mostró un efecto similar a nivel del comportamiento de los usuarios: cuando los resultados de búsqueda incluyen un resumen de IA, las personas hacen clic en enlaces normales significativamente con menos frecuencia. Para medios, foros, blogs de nicho y autores independientes, esto no es una métrica abstracta, sino un golpe directo a la publicidad, las suscripciones y la motivación para seguir escribiendo.
El segundo problema son los datos en sí. Los grandes modelos de lenguaje crecieron inicialmente sobre enormes matrices de texto de internet. Los primeros sistemas como GPT-3 tenían su corpus de entrenamiento principal recopilado de la web y fuentes relacionadas.
Pero el volumen de contenido humano de calidad no es infinito. En junio de 2024, investigadores de Epoch AI estimaron que a los ritmos de escalado anteriores, la industria podría alcanzar el límite del texto disponible públicamente apto para el entrenamiento entre 2026 y 2032. Por eso los principales actores comenzaron a firmar acuerdos con Reddit, editoriales y otros propietarios de grandes archivos: el acceso a los datos se transformó de un detalle técnico en un activo estratégico.
Contra este telón de fondo, la tentación de cambiar a datos sintéticos parece casi inevitable. Si no hay suficiente texto real, tiene sentido pedirle a un modelo que genere material para el siguiente. El problema es que tal esquema degrada gradualmente la calidad.
Un artículo publicado en Nature el 25 de julio de 2024 describe el efecto de colapso del modelo: con entrenamiento recursivo en datos generados por máquina, los modelos comienzan a perder hechos raros, suavizar patrones complejos y amplificar errores y sesgos ya existentes. Es como copiar la misma página varias veces: el significado general aún es visible, pero los detalles se desvanecen con cada iteración. Incluso OpenAI reconoció públicamente que los datos sintéticos pueden ayudar en casos específicos, pero no parecen una sustitución completa de un corpus diverso de texto generado por humanos.
Hay otra trampa más: separar el texto humano del texto generado por máquina es mucho más difícil en la práctica de lo que parece. Los detectores de contenido de IA aún cometen errores, especialmente en textos cortos, editados o estilísticamente neutros. Algunos estudios mostraron altas tasas de falsos positivos en textos de personas para quienes el inglés no es su lengua materna.
Esto significa que la industria tendrá dificultades para simplemente 'limpiar internet' y seleccionar solo datos humanos confiables. Además, evaluaciones académicas recientes ya están registrando que la proporción de asistencia de IA en nuevas publicaciones está creciendo rápidamente, y el contenido online en sí es cada vez más monótono en significado y más estéril en tono. En otras palabras, el problema no es solo la cantidad de texto, sino su diversidad.
Si este ciclo no se rompe, internet comenzará a funcionar peor para todos los participantes. Los autores publicarán material en profundidad con menos frecuencia porque se hace más difícil monetizarlo. Las plataformas seguirán llenando los resultados de búsqueda con breves resúmenes de IA, ahorrando un clic a los usuarios, pero empobrecer el ecosistema de fuentes.
Y los desarrolladores de modelos obtendrán cada vez más contenido secundario que suena seguro pero contiene menos conocimiento nuevo. La solución parece radicar no en un volumen aún mayor de generación, sino en preservar los incentivos para la escritura humana: a través de pagos de licencias, atribución transparente, uso más cuidadoso de resúmenes de IA y priorización de la calidad de los datos sobre la escala bruta. De lo contrario, la IA realmente terminará en la trampa que se ha construido a sí misma.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.