Conozca LMSYS-Chat-1M: un conjunto de datos a gran escala que contiene un millón de conversaciones del mundo real con 25 LLM de última generación

Los modelos de lenguajes grandes (LLM) se han convertido en parte integral de diversas aplicaciones de inteligencia artificial, desde asistentes virtuales hasta generación de código. Los usuarios adaptan su comportamiento cuando interactúan con LLM, utilizando consultas y formatos de preguntas específicos para diferentes propósitos. El estudio de estos patrones puede proporcionar información sobre las expectativas de los usuarios y la confianza en varios LLM. Además, comprender la variedad de preguntas, desde hechos simples hasta consultas complejas con mucho contexto, puede ayudar a mejorar los LLM para brindar un mejor servicio a los usuarios, prevenir el uso indebido y mejorar la seguridad de la IA. Puede decirse que:

  • Los altos costos operativos asociados con la ejecución de grandes servicios de modelos lingüísticos hacen que para muchas organizaciones sea un desafío financiero recopilar datos reales de las preguntas de los usuarios.
  • Las empresas que poseen conjuntos de datos sustanciales de preguntas de los usuarios dudan en compartirlos debido a la preocupación por revelar sus ventajas competitivas y el deseo de mantener la privacidad de los datos.
  • Animar a los usuarios a interactuar con modelos de lenguaje abierto es un desafío porque estos modelos a menudo no funcionan tan bien como los desarrollados por las grandes empresas.
  • Esta dificultad en la participación de los usuarios con modelos abiertos dificulta la compilación de un conjunto de datos sustancial que refleje con precisión las interacciones reales de los usuarios con estos modelos con fines de investigación.

Para abordar esta brecha, este artículo de investigación presenta un nuevo conjunto de datos del mundo real a gran escala llamado LMSYS-Chat-1M. Este conjunto de datos fue cuidadosamente seleccionado a partir de una extensa colección de interacciones reales entre grandes modelos de lenguaje (LLM) y usuarios. Estas interacciones se recopilaron durante un período de cinco meses mediante el alojamiento de un servicio LLM en línea gratuito que brindaba acceso a 25 LLM populares, que abarcan modelos de código abierto y propietarios. El servicio incurrió en importantes recursos computacionales, incluidos varios miles de horas A100.

Para mantener la participación de los usuarios a lo largo del tiempo, los autores implementaron un elemento competitivo conocido como “chatbot arena” e incentivaron a los usuarios a utilizar el servicio actualizando periódicamente clasificaciones y tablas de clasificación para LLM populares. En consecuencia, LMSYS-Chat-1M comprende más de un millón de conversaciones de usuarios, mostrando una amplia gama de idiomas y temas. Los usuarios brindaron su consentimiento para que sus interacciones se utilicen para este conjunto de datos a través de la sección “Términos de uso” en el sitio web de recopilación de datos.

Este conjunto de datos se recopiló de la demostración de Vicuña y del sitio web Chatbot Arena entre abril y agosto de 2023. El sitio web ofrece a los usuarios tres opciones de interfaz de chat: un chat de un solo modelo, una arena de chatbot donde los chatbots luchan y una arena de chatbot que permite a los usuarios comparar dos. chatbots uno al lado del otro. Esta plataforma es completamente gratuita y no se compensa a los usuarios ni se les impone ninguna tarifa por su uso.

En este artículo, los autores exploran las aplicaciones potenciales de LMSYS-Chat-1M en cuatro casos de uso diferentes. Demuestran que LMSYS-Chat-1M puede ajustar eficazmente pequeños modelos de lenguaje para que sirvan como poderosos moderadores de contenido, logrando un rendimiento similar al de GPT-4. Además, a pesar de las medidas de seguridad en algunos modelos servidos, LMSYS-Chat-1M todavía contiene conversaciones que pueden desafiar las salvaguardias de los principales modelos lingüísticos, ofreciendo un nuevo punto de referencia para estudiar la solidez y seguridad de los modelos.

Además, el conjunto de datos incluye diálogos modelo en lenguaje de usuario de alta calidad adecuados para ajustar las instrucciones. Al utilizar un subconjunto de estos diálogos, los autores muestran que los modelos Llama-2 pueden alcanzar niveles de rendimiento comparables a Vicuña y Llama2 Chat en puntos de referencia específicos. Por último, la amplia cobertura de temas y tareas de LMSYS-Chat-1M lo convierte en un recurso valioso para generar nuevas preguntas de referencia para modelos de lenguaje.


Revisar la Papel y Conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Janhavi Lande, se graduó en Ingeniería Física del IIT Guwahati, promoción de 2023. Es una futura científica de datos y ha estado trabajando en el mundo de la investigación ml/ai durante los últimos dos años. Lo que más le fascina es este mundo en constante cambio y su constante exigencia de que los humanos se mantengan al día. En su pasatiempo le gusta viajar, leer y escribir poemas.