Project Panama: Anthropic procesa millones de libros para entrenar Claude
Imagine un enorme almacén repleto de palés con libros. Pero esto no es una biblioteca ni un archivo silencioso. Aquí no leen — aquí disecan. Personas en…
Procesado por IA desde Habr AI; editado por Hamidun News
Imagine un enorme almacén repleto de palés con libros. Pero esto no es una biblioteca ni un archivo silencioso. Aquí no leen — aquí disecan. Personas en trajes de protección cortan cuidadosamente los lomos de tomos nuevecitos, transformando las cubiertas en pilas de hojas sueltas que luego desaparecen en las profundidades de escáneres de alta velocidad. Esta no es una escena de la distopía de Ray Bradbury, sino el trabajo cotidiano de una división secreta de Anthropic. El proyecto recibió el nombre en código Project Panama, y sus detalles acaban de salir a la luz en archivos judiciales, haciendo que la industria se estremezca ante la magnitud de lo que está sucediendo.
Anthropic ha construido durante mucho tiempo una imagen como la alternativa "ética" a OpenAI. Mientras Sam Altman aspiraba agresivamente internet, los creadores de Claude hablaban sobre seguridad y responsabilidad. Sin embargo, resultó que cuando se trata de la escasez de datos de calidad, la ética cede paso a una trituradora industrial. Los documentos judiciales revelaron que a principios de 2024, la dirección de la startup lanzó un ambicioso plan de "escaneo destructivo de todos los libros del mundo". La formulación suena ominosa, pero desde un punto de vista técnico es justificada: para escanear rápidamente y sin distorsiones, el libro literalmente necesita ser destruido, convertido en un conjunto de páginas planas.
¿Por qué tales complicaciones cuando existen versiones digitales? La respuesta radica en la calidad y los derechos. Las bibliotecas digitales legales son costosas y están protegidas por licencias estrictas, mientras que los archivos piratas como Shadow Libraries a menudo contienen errores de OCR. Para entrenar modelos al nivel de Claude 3.5 o del futuro Claude 4, necesitas conocimiento limpio y estructurado. Anthropic decidió que es más simple y barato comprar millones de copias físicas, convertirlas en polvo y obtener copias digitales perfectas, que negociar con cada titular de derechos individualmente. El presupuesto de la operación fue de decenas de millones de dólares — una suma comparable al costo de compra de chips H100.
Esta situación resalta el principal problema de la industria de IA moderna: el "muro de datos" no es un mito, sino una realidad. La humanidad ya ha alimentado a redes neuronales con casi todo Reddit, Wikipedia y archivos de periódicos digitalizados. Pero los apetitos de los modelos crecen exponencialmente. Si antes hablábamos de cómo la IA reemplazaría a los escritores, ahora vemos cómo la IA literalmente devora su legado físico. La ironía de la situación es que una startup valorada en miles de millones de dólares se ve obligada a dedicarse a la logística de papel de desecho para ganar una ventaja de algunos puntos porcentuales en la precisión del chatbot.
El secreto del Project Panama se explica simplemente: se ve terrible desde el punto de vista de las relaciones públicas. Es difícil vender al público la idea de "IA segura" construida sobre las ruinas de libros destruidos. Los abogados de Anthropic probablemente esperaban que la posesión física de un libro les diera alguna escapatoria en la ley de "uso justo". Como si, compramos el libro, tenemos derecho a leerlo, aunque el "lector" sea un algoritmo y el proceso de lectura requiera destruir el medio. Sin embargo, es poco probable que los tribunales sean tan favorables a la copia industrial en masa.
¿Qué significa esto para nosotros? Hemos entrado en una era en la que la información en el mundo físico se está volviendo más valiosa que el polvo digital. Si antes digitalizábamos libros para preservarlos para la posteridad, ahora lo hacemos para alimentar una "caja negra" que nos dará un resumen en un chat. Este es un cambio radical en la cultura del consumo de conocimiento. Pronto podríamos enfrentar una escasez de ediciones raras simplemente porque otro unicornio de IA decidió comprar toda la tirada para entrenar su nueva "máquina de lenguaje".
Lo importante: Anthropic ha demostrado que en la batalla por los datos, no se toman prisioneros. ¿Estamos listos para el hecho de que la inteligencia del futuro será construida sobre las cenizas de libros quemados?
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.