Screenshot 2024 03 22 At 10.33.13 Pm.png

En el panorama dinámico de la Inteligencia Artificial, un debate de larga data cuestiona la necesidad de materiales protegidos por derechos de autor para entrenar los mejores modelos de IA. La audaz afirmación de OpenAI ante el Parlamento del Reino Unido en 2023 de que entrenar tales modelos sin utilizar contenido protegido por derechos de autor era «imposible» provocó conmociones en la industria, provocando batallas legales y dilemas éticos. Sin embargo, acontecimientos recientes han desafiado esta sabiduría convencional, ofreciendo evidencia convincente de que se pueden entrenar modelos de lenguaje grandes sin el uso polémico de materiales protegidos por derechos de autor.

La iniciativa Common Corpus se ha convertido en el mayor conjunto de datos de dominio público para la formación de LLM. Esta colaboración internacional, dirigida por Pleias y en la que participan investigadores en formación previa en LLM, ética de la IA y patrimonio cultural, ha desafiado el status quo e iniciado una nueva era de prácticas de IA. Este conjunto de datos diverso y multilingüe muestra el potencial de formar LLM sin preocupaciones de derechos de autor, lo que marca un cambio significativo en el panorama de la IA.

Fairly Trained, una organización sin fines de lucro líder en la industria de la IA, ha dado un paso decisivo hacia prácticas de IA más justas. Ha otorgado su primera certificación para un LLM construido sin infracción de derechos de autor, un modelo conocido como KL3M. Desarrollado por 273 Ventures, una startup de consultoría de tecnología legal con sede en Chicago, KL3M no es solo un modelo, sino un rayo de esperanza para una IA justa. El riguroso proceso de certificación, supervisado por el director ejecutivo de Fairly Trained, Ed Newton-Rex, infunde confianza en el potencial de una IA justa, afirmando que «no hay ninguna razón fundamental por la que alguien no pueda formar un LLM de manera justa».

Kelvin Legal DataPack, un conjunto de datos de capacitación creado meticulosamente por Fairly Trained, incluye miles de documentos legales revisados ​​para cumplir con las leyes de derechos de autor. A pesar de su tamaño de alrededor de 350 mil millones de tokens, este conjunto de datos es un testimonio del poder de la curación. Puede que sea más pequeño que los compilados por OpenAI y otros que han rastreado Internet, pero su rendimiento es excepcional. Jillian Bommarito, fundadora de la empresa, atribuye el éxito del modelo KL3M al riguroso proceso de investigación aplicado a los datos. El potencial de conjuntos de datos seleccionados como este para potenciar los modelos de IA, adaptándolos con precisión a sus tareas designadas, es realmente emocionante. 273 Ventures ahora ofrece lugares codiciados en una lista de espera para clientes ansiosos por acceder a este recurso invaluable.

Los investigadores que desarrollaron Common Corpus dieron un paso audaz al utilizar una colección de texto equivalente en tamaño a los datos utilizados para entrenar el modelo GPT-3 de OpenAI. Lo pusieron a disposición en la plataforma de inteligencia artificial de código abierto Hugging Face. Si bien Fairly Trained solo ha certificado 273 LLM de Ventures, la aparición de Common Corpus y KL3M señala un cambio en el panorama de la IA. Los defensores de una IA más justa, en particular para los artistas afectados por la extracción de datos, consideran que estas iniciativas son fundamentales para desafiar la norma. Las certificaciones recientes de Fairly Trained, incluida la startup española de modulación de voz VoiceMod y la banda de heavy metal de IA Frostbite Orckings, muestran una diversificación más allá de los LLM, lo que sugiere un alcance más amplio para la certificación de IA.

Si bien Kelvin Legal DataPack, un conjunto de datos de capacitación creado por Fairly Trained, tiene sus ventajas, también tiene limitaciones. Este conjunto de datos incluye miles de documentos legales revisados ​​para cumplir con las leyes de derechos de autor y es un recurso valioso. Sin embargo, es importante señalar que gran parte de los datos de dominio público disponibles están desactualizados, especialmente en regiones como Estados Unidos, donde la protección de los derechos de autor a menudo se extiende más allá de los 70 años desde la muerte del autor. Por lo tanto, este conjunto de datos puede no ser adecuado para fundamentar un modelo de IA en la actualidad.


Revisar la Blog, Artículo de referenciay Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.