En abril, los autores y editores de los libros protestaron por el uso de Meta de libros con derechos de autor para entrenar IAi
Vuk Valcic/Alamy Live News
Miles de millones de dólares están en juego ya que los tribunales en los Estados Unidos y el Reino Unido deciden si las empresas tecnológicas pueden capacitar legalmente sus modelos de inteligencia artificial en libros con derechos de autor. Los autores y editores han presentado múltiples demandas sobre este tema, y en un nuevo giro, los investigadores han demostrado que al menos un modelo de IA no solo ha utilizado libros populares en sus datos de capacitación, sino que también memorizó su contenido textual.
Muchas de las disputas en curso giran en torno a si los desarrolladores de IA tienen el derecho legal de usar obras con derechos de autor sin primero pedir permiso. Investigaciones anteriores encontraron que muchos de los grandes modelos de idiomas (LLM) detrás de los populares chatbots de IA y otros programas de IA generativos fueron capacitados en el conjunto de datos “Books3”, que contiene casi 200,000 libros con derechos de autor, incluidos muchos pirateados. Los desarrolladores de IA que entrenaron sus modelos en este material han argumentado que no violaron la ley porque un LLM presenta nuevas combinaciones de palabras basadas en su entrenamiento, transformando en lugar de replicar el trabajo con derechos de autor.
Pero ahora, los investigadores han probado múltiples modelos para ver cuánto de esos datos de entrenamiento pueden escupir textualmente. Descubrieron que muchos modelos no conservan el texto exacto de los libros en sus datos de entrenamiento, pero uno de los modelos de Meta ha memorizado casi la totalidad de ciertos libros. Si los jueces gobiernan contra la compañía, los investigadores estiman que esto podría hacer que Meta sea responsable de al menos $ 1 mil millones en daños.
“Eso significa, por un lado, que los modelos de IA no son solo ‘máquinas de plagio’, como algunos han alegado, sino que también significa que hacen más que aprender relaciones generales entre palabras”, dice Mark Lemley en la Universidad de Stanford en California. “Y el hecho de que la respuesta difiere del modelo para modelar y reservar a reservar significa que es muy difícil establecer una regla legal clara que funcione en todos los casos”.
Lemley defendió previamente a Meta en un caso generativo de copyright de IA llamado Kadrey v Meta Platforms. Los autores cuyos libros habían sido utilizados para capacitar a los modelos AI de Meta presentaron una demanda colectiva contra el gigante tecnológico por incumplimiento de los derechos de autor. El caso todavía se escucha en el Distrito Norte de California.
En enero de 2025, Lemley anunciado Había abandonado a Meta como cliente, aunque dijo que todavía creía que la compañía debería ganar el caso. Emil Vázquezun portavoz de Meta, dice que “el uso justo de los materiales con derechos de autor es vital” para desarrollar los modelos de IA de la compañía. “No estamos de acuerdo con las afirmaciones de los demandantes, y el registro completo cuenta una historia diferente”, dice.
En esta última investigación, Lemley y sus colegas probaron la memorización de libros de IA al dividir pequeños extractos de libros en dos partes, un prefijo y una sección de sufijo, y ver si un modelo solicitado con el prefijo respondería con el sufijo. Por ejemplo, dividieron una cita de F. Scott Fitzgerald’s El gran Gatsby En el prefijo “Eran personas descuidadas, Tom y Daisy: destrozaron cosas y criaturas y luego se retiraron” y el sufijo “volvió a su dinero o su vasto descuido, o lo que sea lo que los mantuvo unidos, y dejaron que otras personas limpiaran el desastre que habían hecho”.
Según sus hallazgos, los investigadores estimaron la probabilidad de que cada modelo de IA complete los extractos textualmente. Luego compararon esas probabilidades con las probabilidades de que los modelos lo hagan por casualidad aleatoria.
Los extractos incluyeron trozos de texto de 36 libros con derechos de autor, incluidos títulos populares como George RR Martin’s Un juego de tronos y Sheryl Sandberg’s Inclinarse. Los investigadores también probaron extractos de libros escritos por demandantes en el caso de Meta Platforms de Kadrey v.
Los investigadores realizaron estos experimentos en 13 modelos de IA de código abierto, incluidos los modelos desarrollados y lanzados por Meta, Google, Deepseek, Eleutherai y Microsoft. La mayoría de las empresas además de Meta no respondieron a las solicitudes de comentarios y Microsoft declinó hacer comentarios.
Dichas pruebas revelaron que el modelo de Meta’s Llama 3.1 70B ha memorizado la mayor parte del primer libro en JK Rowling’s Harry Potter serie, así como El gran Gatsby y la novela distópica de George Orwell 1984. La mayoría de los otros modelos habían memorizado muy poco de los libros, incluidos los libros de muestra escritos por los demandantes de la demanda. Meta declinó hacer comentarios sobre estos resultados.
Los investigadores estiman que un modelo de IA encontró haber infringido los derechos de autor de solo el 3 por ciento del conjunto de datos Books3 podría conducir a una adjudicación de daños legales de casi $ 1 mil millones, y posiblemente incluso premios mayores basados en las ganancias de los desarrolladores de IA relacionados con esa infracción.
Esta técnica podría ser una “buena herramienta forense” para identificar el alcance de la memorización de la IA, dice Randy McCarthy en el bufete de abogados Hall Estill en Oklahoma. Pero no resuelve si las empresas pueden capacitar legalmente a sus modelos de IA en trabajos con derechos de autor a través de la regla de “uso justo” de los Estados Unidos, una doctrina legal que permite el uso sin licencia de trabajos con derechos de autor en algunas circunstancias.
McCarthy señala que las compañías de IA generalmente reconocen la capacitación de sus modelos sobre materiales con derechos de autor. “La pregunta es, ¿tenían derecho a hacerlo?” Él pregunta.
En el Reino Unido, por otro lado, el hallazgo de memorización podría ser “muy significativo desde una perspectiva de derechos de autor”, dice Robert tierras en el bufete de abogados Howard Kennedy en Londres. La ley de derechos de autor del Reino Unido sigue el concepto de “trato justo”, que proporciona una excepción mucho más estrecha a la infracción de los derechos de autor que la doctrina de uso justo de los Estados Unidos. Por lo tanto, es poco probable que los modelos de IA que memorizaran libros pirateados califiquen para esa excepción, dice.
Temas: