Conjunto de datos de Open Artificial Knowledge (OAK): un recurso a gran escala para la investigación en IA derivado de las categorías principales de Wikipedia

El rápido avance de la inteligencia artificial (IA) y el aprendizaje automático (AA) ha puesto de relieve la necesidad crítica de disponer de conjuntos de datos grandes, diversos y de alta calidad para entrenar y evaluar modelos básicos. Sin embargo, la adquisición de dichos conjuntos de datos presenta importantes desafíos, como la escasez de datos, las preocupaciones por la privacidad y los altos costos de recopilación y anotación de datos. Los datos artificiales (sintéticos) han surgido como una solución prometedora para estos desafíos, ya que ofrecen una forma de generar datos que imitan patrones y características del mundo real. La importancia de los datos artificiales en la investigación de la IA ha crecido sustancialmente debido a varios factores: escalabilidad, preservación de la privacidad, diversidad y representación, y rentabilidad. Los datos sintéticos se pueden generar a escala, abordar cuestiones de privacidad, cubrir una amplia gama de escenarios para mitigar sesgos y proporcionar una alternativa más económica a la recopilación y anotación de datos del mundo real.

Los trabajos recientes de entrenamiento de modelos de lenguaje de última generación (LLM) han incorporado cada vez más conjuntos de datos sintéticos, como se ve en modelos como Llama-3. Si bien los datos humanos elaborados a mano han demostrado mejoras significativas en el ajuste fino supervisado (SFT), especialmente para tareas como la generación de código y el razonamiento matemático, la escasez y el costo de dichos datos han llevado a un mayor uso de datos sintéticos. Este método utiliza LLM capaces, como la familia GPT, para producir datos sintéticos de alta calidad. Investigaciones recientes han destacado la capacidad de los LLM para reformular y potenciar los datos sintéticos para un SFT eficaz, lo que sugiere un crecimiento continuo en el uso de datos sintéticos para mejorar el rendimiento y la alineación de los LLM.

La generación de datos artificiales presenta varios desafíos clave, entre ellos, garantizar la diversidad y la generalización, mantener la calidad, preservar la privacidad, abordar los sesgos y cumplir con consideraciones éticas y legales. La diversidad en los datos artificiales es crucial para la generalización de modelos, mientras que la calidad afecta directamente el rendimiento de los modelos entrenados con ellos. Las preocupaciones sobre la privacidad deben abordarse para evitar revelar información confidencial. El sesgo en los datos artificiales puede surgir de algoritmos subyacentes y datos de entrenamiento, lo que puede llevar a predicciones de modelos injustas o inexactas. Las consideraciones éticas y legales implican cumplir con pautas y regulaciones como GDPR y CCPA. Además, los desafíos prácticos incluyen la escalabilidad, la rentabilidad, el desarrollo de métricas de evaluación sólidas, garantizar la precisión fáctica y mantener y actualizar los datos sintéticos para reflejar las tendencias actuales y los cambios lingüísticos.

Vadim Borisov y Richard H. Schreiber presentan El conjunto de datos de Conocimiento Artificial Abierto (OAK) OAK aborda los desafíos de la generación artificial de datos al proporcionar un recurso a gran escala de más de 500 millones de tokens. OAK utiliza un conjunto de LLM de última generación, incluidos GPT4o, LLaMa3-70B, LLaMa3-8B, Mixtral-8x7B, Gemma-7B y Gemma-2-9B, para generar texto de alta calidad en diversos dominios. El proceso de generación de datos comienza consultando bases de datos de conocimiento para recopilar temas, que luego se amplían utilizando LLM. Estos temas se transforman en indicaciones que se utilizan para generar textos con modelos avanzados. El conjunto de datos de OAK se evalúa y actualiza continuamente para garantizar su eficacia y confiabilidad para el entrenamiento de modelos de lenguaje avanzados. Al abordar sistemáticamente cada desafío, OAK proporciona un recurso sólido para desarrollar modelos de lenguaje más precisos y alineados.

La generación de conjuntos de datos OAK sigue un enfoque estructurado diseñado para abordar los desafíos clave en la creación de datos artificiales. El proceso implica cuatro pasos principales: extracción de temas, expansión de subtemas, generación de indicaciones y generación de texto con LLM de código abierto. Este enfoque aborda desafíos como la diversidad y la generalización, la calidad, el sesgo y la precisión fáctica. El conjunto de datos también aborda las preocupaciones sobre la privacidad al utilizar solo datos disponibles públicamente y modelos de código abierto.

Para garantizar el cumplimiento ético y legal, el equipo de OAK implementa una estrategia integral, que incluye la publicación de códigos para lograr transparencia y el compromiso de eliminar contenido cuando se lo solicite. La toxicidad y el contenido dañino se mitigan mediante técnicas de filtrado automático y modelos perfeccionados. La eficacia del conjunto de datos se evalúa utilizando puntos de referencia comunes y se planifican actualizaciones periódicas para mantener la relevancia.

El conjunto de datos OAK tiene dos técnicas principales para la generación de indicaciones: ingeniería de indicaciones de programación e ingeniería de indicaciones meta. Estos métodos garantizan la diversidad de indicaciones, manteniendo la calidad y abordando posibles sesgos. El conjunto de datos resultante proporciona un recurso sólido para desarrollar modelos de lenguaje más precisos y alineados, y su uso está destinado principalmente a fines de investigación en áreas como la alineación de modelos, la mitigación de sesgos y la ingeniería de indicaciones.

El conjunto de datos OAK ofrece un recurso integral para la investigación de IA, derivado de las categorías principales de Wikipedia. Mediante el uso de modelos avanzados como GPT4o, LLaMa3, Mixtral, Gemma y Gemma2, OAK aborda la escasez de datos, las preocupaciones sobre privacidad y los problemas de diversidad. Con más de 500 millones de tokens, este conjunto de datos disponible de forma gratuita admite la alineación, el ajuste y la evaluación comparativa de modelos en diversas tareas y aplicaciones de IA. El proceso de creación de OAK implica técnicas sofisticadas para garantizar la calidad, la diversidad y las consideraciones éticas, lo que lo convierte en un recurso valioso para el avance de las tecnologías de IA y, al mismo tiempo, para abordar desafíos críticos en el campo de la generación y utilización de datos artificiales.


Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.