Grandes modelos de lenguaje Dependen en gran medida de conjuntos de datos abiertos para capacitarse, lo que plantea importantes desafíos legales, técnicos y éticos en la gestión de dichos conjuntos de datos. Existen incertidumbres sobre las implicaciones legales del uso de datos según las distintas leyes de derechos de autor y las regulaciones cambiantes con respecto al uso seguro. La falta de estándares globales o bases de datos centralizadas para validar y licenciar conjuntos de datos y metadatos incompletos o inconsistentes hace imposible evaluar el estatus legal de las obras. Las barreras técnicas también se relacionan con el acceso al material digitalizado de dominio público. La mayoría de los conjuntos de datos abiertos no están gobernados y no han implementado ningún tipo de red de seguridad legal para sus contribuyentes, lo que los expone a peligros y hace imposible ampliarlos. Si bien pretenden crear más transparencia y trabajo colaborativo, hacen poco o nada para abordar desafíos sociales más amplios, como la diversidad y la rendición de cuentas, y a menudo excluyen lenguajes y puntos de vista subrepresentados.

Métodos actuales para construir conjuntos de datos abiertos para LLM a menudo carecen de marcos legales claros y enfrentan importantes desafíos técnicos, operativos y éticos. Los métodos tradicionales dependen de metadatos incompletos, lo que complica la verificación del estado de los derechos de autor y el cumplimiento en diferentes regiones con diferentes leyes. Digitalizar materiales de dominio público y hacerlos accesibles es un desafío porque grandes proyectos como libros de Google restringir el uso, lo que impide la construcción de conjuntos de datos abiertos. Los proyectos impulsados ​​por voluntarios carecen de una gobernanza estructurada, lo que expone a los contribuyentes a riesgos legales. Estas brechas impiden la igualdad de acceso, impiden la diversidad en la representación de los datos y concentran el poder en unas pocas organizaciones dominantes. Esto crea un ecosistema en el que los conjuntos de datos abiertos luchan por competir con los modelos propietarios, lo que reduce la responsabilidad y ralentiza el progreso hacia el desarrollo de una IA transparente e inclusiva.

Para mitigar los problemas en la codificación de metadatos, el abastecimiento de datos y el procesamiento de conjuntos de datos de aprendizaje automático, los investigadores propusieron un marco centrado en construir un corpus confiable utilizando datos de dominio público y con licencia abierta para entrenar modelos de lenguaje grandes (LLM). El marco enfatiza la superación de desafíos técnicos como garantizar metadatos confiables y digitalizar registros físicos. Promueve la cooperación entre dominios para seleccionar, gobernar y publicar de manera responsable estos conjuntos de datos al tiempo que promueve la competencia en el ecosistema LLM. También enfatiza los estándares de metadatos, la reproducibilidad para la rendición de cuentas y garantizar la diversidad de las fuentes de datos como una alternativa a los métodos más tradicionales que carecen de gobernanza estructurada y transparencia.

Los investigadores incluyeron todos los pasos prácticos de obtención, procesamiento y control de conjuntos de datos. Se utilizaron herramientas para detectar contenido con licencia abierta para garantizar datos de alta calidad. El marco integró estándares para la coherencia de los metadatos, enfatizó la digitalización y fomentó la colaboración con las comunidades para crear conjuntos de datos. También apoyó la transparencia y la reproducibilidad en el preprocesamiento y abordó posibles sesgos y contenido dañino en un sistema sólido e inclusivo para la capacitación de LLM y al mismo tiempo redujo los riesgos legales. El marco también destaca la interacción con comunidades subrepresentadas para crear diversos conjuntos de datos y crear términos de uso más claros y legibles por máquina. Además, hacer que el ecosistema de datos abiertos sea sostenible debería pasar por la propuesta de modelos de financiación pública tanto de empresas tecnológicas como de instituciones culturales para garantizar una participación sostenible.

Finalmente, los investigadores proporcionaron un escenario claro con un plan ampliamente delineado sobre cómo abordar las cuestiones discutidas en el contexto de la formación de LLM en datos sin licencia, centrándose en la apertura de los conjuntos de datos y los esfuerzos realizados por diferentes esferas. Iniciativas como enfatizar la estandarización de los metadatos, mejorar el proceso de digitalización y la gobernanza responsable tenían como objetivo hacer que el ecosistema de inteligencia artificial fuera más abierto. Los trabajos sientan las bases para trabajos futuros en los que se seguirán investigando nuevas innovaciones en la gestión de conjuntos de datos, la gobernanza de la IA y los avances de las tecnologías que mejoran la accesibilidad de los datos y al mismo tiempo abordan el problema de los desafíos éticos y legales.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 [Recommended Read] Nebius AI Studio se expande con modelos de visión, nuevos modelos de lenguaje, incorporaciones y LoRA (Promovido)


Divyesh es pasante de consultoría en Marktechpost. Está cursando un BTech en Ingeniería Agrícola y Alimentaria en el Instituto Indio de Tecnología de Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el ámbito agrícola y resolver desafíos.

Por automata