A medida que los modelos de lenguaje se vuelven cada vez más avanzados, han surgido preocupaciones en torno a las implicaciones éticas y legales de entrenarlos en conjuntos de datos vastos y diversos. Si los datos de entrenamiento no se comprenden correctamente, se podría filtrar información confidencial entre los conjuntos de datos de entrenamiento y de prueba. Esto podría exponer información de identificación personal (PII), introducir sesgos o comportamientos no deseados y, en última instancia, producir modelos de menor calidad de lo esperado. La falta de información y documentación completa sobre estos modelos crea importantes riesgos éticos y legales que deben abordarse.
Un equipo de investigadores de diversas instituciones, incluido el MIT, la Facultad de Derecho de Harvard, la UC Irvine, el Centro de Comunicación Constructiva del MIT, Inria, la Univ. Lille Center, Contextual AI, ML Commons, Olin College, Carnegie Mellon University, Tidelift y Cohere For AI han demostrado su compromiso de promover la transparencia y el uso responsable de conjuntos de datos mediante la publicación de una auditoría integral. La auditoría incluye Data Provenance Explorer, una interfaz de usuario interactiva que permite a los profesionales rastrear y filtrar la procedencia de los datos para colecciones de datos de ajuste fino de código abierto ampliamente utilizadas.
Las leyes de derechos de autor otorgan a los autores la propiedad exclusiva de su trabajo, mientras que las licencias de código abierto fomentan la colaboración en el desarrollo de software. Sin embargo, los datos de entrenamiento de IA supervisados presentan desafíos únicos para las licencias de código abierto en la gestión de datos de manera efectiva. La interacción entre los derechos de autor y los permisos dentro de los conjuntos de datos recopilados aún está por determinar, con desafíos legales e incertidumbres en torno a la aplicación de las leyes pertinentes a la IA generativa y los conjuntos de datos supervisados. Trabajos anteriores han resaltado la importancia de la documentación y la atribución de datos, y las hojas de datos y otros estudios destacan la necesidad de una documentación integral y una justificación de la conservación de los conjuntos de datos.
El estudio realizado por investigadores implicó la recuperación manual de páginas y la extracción automática de licencias de las configuraciones de HuggingFace y páginas de GitHub. También utilizaron la API pública de Semantic Scholar para recuperar fechas de lanzamiento de publicaciones académicas y recuentos de citas. Para garantizar un trato justo en todos los idiomas, los investigadores utilizaron una serie de propiedades de datos en los caracteres, como métricas de texto, turnos de diálogo y longitud de secuencia. Además, llevaron a cabo un análisis panorámico para rastrear el linaje de más de 1800 conjuntos de datos de texto, examinando su fuente, creadores, condiciones de licencia, propiedades y uso posterior. Para facilitar los procesos de auditoría y seguimiento, desarrollaron herramientas y estándares para mejorar la transparencia y el uso responsable de los conjuntos de datos.
El análisis del panorama ha revelado marcadas diferencias en la composición y el enfoque de los conjuntos de datos abiertos y cerrados disponibles comercialmente. Los conjuntos de datos a los que es difícil acceder dominan categorías esenciales, como idiomas con menos recursos, tareas más creativas, una mayor variedad de temas y datos de capacitación más nuevos y sintéticos. El estudio también ha puesto de relieve el problema de la atribución errónea y el uso incorrecto de conjuntos de datos de uso frecuente. En los sitios populares de alojamiento de conjuntos de datos, las licencias suelen estar mal categorizadas y las tasas de omisión de licencias superan el 70 %, con tasas de error superiores al 50 %. El estudio enfatiza la necesidad de una documentación y atribución de datos integrales. También destaca los desafíos de sintetizar documentación para modelos entrenados en múltiples fuentes de datos.
El estudio concluye que existen diferencias significativas en la composición y el enfoque de los conjuntos de datos comercialmente abiertos y cerrados. Conjuntos de datos impenetrables monopolizan categorías importantes, lo que indica una división cada vez más profunda en los tipos de datos disponibles bajo diferentes condiciones de licencia. El estudio encontró frecuentes clasificaciones erróneas de las licencias en sitios de alojamiento de conjuntos de datos y altas tasas de omisión de licencias. Esto apunta a problemas en la atribución errónea y el uso informado de conjuntos de datos populares, lo que genera preocupaciones sobre la transparencia de los datos y el uso responsable. Los investigadores publicaron su auditoría completa, incluido el Explorador de procedencia de datos, para contribuir a mejoras continuas en la transparencia y el uso confiable de los conjuntos de datos. El análisis del panorama y las herramientas desarrolladas en el estudio tienen como objetivo mejorar la transparencia y la comprensión de los conjuntos de datos, abordando los riesgos legales y éticos asociados con la capacitación de modelos de lenguaje en conjuntos de datos documentados de manera inconsistente.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.