Este artículo sobre inteligencia artificial elaborado por investigadores de Tencent AI Lab presenta Persona-Hub: una colección de mil millones de personas diversas para escalar datos sintéticos

La generación de datos sintéticos se ha vuelto crucial en el entrenamiento de modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés). Este campo se centra en la creación de conjuntos de datos artificiales que imitan datos del mundo real, lo que permite a los investigadores entrenar y evaluar modelos de aprendizaje automático de manera efectiva sin comprometer la privacidad ni requerir grandes esfuerzos de recopilación de datos. La metodología detrás de la creación de datos sintéticos tiene como objetivo proporcionar conjuntos de datos diversos y escalables para mejorar la solidez y el rendimiento de los LLM en diversas aplicaciones.

El principal desafío en la generación de datos sintéticos radica en crear datos diversos a gran escala. Los métodos tradicionales suelen tener dificultades para mantener tanto la diversidad como la escalabilidad. Los enfoques basados ​​en instancias, que generan nuevos datos basados ​​en un corpus de semillas, están limitados por la diversidad del conjunto de datos original. Los métodos basados ​​en puntos clave intentan diversificar los datos sintéticos aprovechando una lista seleccionada de puntos clave, pero este proceso es difícil de escalar en diferentes dominios debido a la selección exhaustiva que se requiere. Como resultado, estos métodos a menudo no logran producir conjuntos de datos que puedan cubrir una amplia gama de escenarios y casos de uso.

Los métodos actuales para la generación de datos sintéticos suelen implicar enfoques basados ​​en instancias y puntos clave. Los métodos basados ​​en instancias utilizan un corpus inicial para crear nuevas instancias, pero su diversidad está limitada por el corpus inicial. Los métodos basados ​​en puntos clave se basan en una lista completa de puntos clave, que es difícil de seleccionar de forma exhaustiva y limita el alcance a dominios específicos. Estos métodos, si bien son útiles, a menudo no logran producir conjuntos de datos sintéticos suficientemente diversos y escalables, necesarios para la capacitación y aplicación avanzadas de LLM.

Los investigadores de Tencent AI Lab presentaron Persona Hub, una novedosa metodología de síntesis de datos basada en personajes. Este enfoque aprovecha una colección de mil millones de personajes diversos, seleccionados automáticamente a partir de datos web, para generar datos sintéticos. Persona Hub permite a los LLM crear datos desde varias perspectivas, lo que mejora la diversidad y la escalabilidad. Al asociar indicaciones de datos sintéticos con personajes específicos, esta metodología puede orientar a los LLM hacia la creación de conjuntos de datos distintos y variados, superando las limitaciones de los métodos anteriores.

Persona Hub está compuesto por mil millones de personas que representan el 13% de la población mundial, cada una asociada con conocimientos, experiencias, intereses y profesiones únicos. Esta colección permite la generación de datos sintéticos en diversos escenarios al incitar a los LLM con personas específicas. Las personas actúan como portadores distribuidos de conocimiento mundial, guiando a los LLM para producir datos sintéticos diversos y contextualmente ricos. Los investigadores desarrollaron enfoques escalables para derivar estas personas a partir de datos web masivos, utilizando métodos de texto a persona y de persona a persona. El enfoque de texto a persona infiere personas a partir de textos específicos, mientras que el enfoque de persona a persona expande la diversidad de personas a través de relaciones interpersonales.

El enfoque basado en personajes produjo resultados cuantitativos impresionantes. Los investigadores crearon 50.000 problemas matemáticos, 50.000 problemas de razonamiento lógico, 50.000 instrucciones, 10.000 textos ricos en conocimiento, 10.000 personajes no jugadores del juego y 5.000 herramientas. En las evaluaciones, un modelo ajustado con 1,07 millones de problemas matemáticos sintéticos logró una precisión del 79,4 % en un conjunto de prueba de distribución de 11.600 instancias, superando a todos los LLM de código abierto probados. En el punto de referencia MATH, el modelo alcanzó una precisión del 64,9 %, igualando el rendimiento de gpt-4-turbo-preview, lo que demuestra mejoras significativas en las capacidades de LLM a través de la síntesis de datos basada en personajes.

Los investigadores destacaron las mejoras sustanciales en el rendimiento de LLM y el profundo impacto de la síntesis de datos basada en personas en la capacitación y el desarrollo de LLM. Al aprovechar los mil millones de personas en Persona Hub, los investigadores pudieron crear diversos conjuntos de datos sintéticos que mejoran significativamente las capacidades de LLM. Esta metodología demostró ser eficaz en varios escenarios de síntesis de datos, lo que demuestra su potencial para convertirse en una práctica estándar en la generación de datos sintéticos.

La metodología basada en personajes de los investigadores para la generación de datos sintéticos aborda las limitaciones de los métodos tradicionales al introducir un enfoque escalable y diverso. La amplia colección de personajes de Persona Hub facilita la creación de datos sintéticos ricos y variados, lo que hace avanzar el campo de la formación y las aplicaciones de los LLM. Este método innovador promete mejorar las capacidades de los LLM y ampliar su aplicabilidad en el mundo real. Al proporcionar una solución sólida a los desafíos de la generación de datos sintéticos, esta investigación tiene el potencial de impulsar avances significativos en inteligencia artificial y aprendizaje automático.


Revisar la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 45 000 millones de usuarios


Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.