Descubriendo la ‘sabiduría de la multitud del silicio’: cómo los conjuntos de LLM están redefiniendo la precisión de los pronósticos para igualar la experiencia humana

Los modelos de lenguaje grande (LLM) entrenados con grandes cantidades de datos de texto muestran habilidades notables en diversas tareas mediante la predicción y el ajuste del siguiente token. Estas tareas incluyen marketing, comprensión lectora y análisis médico. Si bien los puntos de referencia tradicionales se vuelven obsoletos debido a los avances en LLM, distinguir entre comprensión profunda y memorización superficial plantea un desafío. Evaluar las verdaderas capacidades de razonamiento de los LLM requiere pruebas que evalúen su capacidad para generalizar más allá de los datos de capacitación, lo cual es crucial para evaluaciones precisas.

A menudo, esto se produce en un nivel de coherencia que antes se pensaba que sólo podía lograrse mediante la cognición humana (Gemini Team, OpenAI). Demuestran una aplicabilidad significativa en interfaces de chat y otros contextos varios. Al evaluar las capacidades de un sistema de IA determinado, el método tradicional predominante es medir qué tan bien se desempeña un sistema de IA en puntos de referencia fijos para tareas específicas. Sin embargo, también es plausible que una parte significativa de estos éxitos en los puntos de referencia de las tareas se deba a una memorización superficial de las soluciones de las tareas y a una comprensión superficial de los patrones de los conjuntos de entrenamiento en general.

Los investigadores del MIT y otros presentaron su trabajo en los Estudios 1 y 2. En el Estudio 1, los investigadores emplean un enfoque conjunto, utilizando doce LLM, para predecir los resultados de 31 preguntas binarias. Comparan estas predicciones agregadas de LLM con 925 pronosticadores humanos de un torneo de pronóstico de tres meses. Los resultados indican que el público de LLM supera un punto de referencia sin información y iguala el desempeño del público humano. Además, el Estudio 2 explora la mejora de las predicciones de LLM mediante la incorporación de resultados cognitivos humanos, centrándose en los modelos GPT-4 y Claude 2.

En el Estudio 1, los investigadores recopilaron datos de doce LLM diversos, incluidos GPT-4 y Claude 2. Compararon las predicciones de LLM en 31 preguntas binarias con 925 pronosticadores humanos de un torneo de tres meses, y encontraron equivalencia estadística. En el Estudio 2, los investigadores se centraron exclusivamente en GPT-4 y Claude 2, utilizando un diseño dentro del modelo para recopilar pronósticos previos y posteriores a la intervención por pregunta. Investigaron el comportamiento de actualización de los LLM con respecto a las estimaciones de predicción humana de un torneo de pronóstico del mundo real, empleando indicaciones más largas como orientación.

En el estudio 1, recopilaron 1007 pronósticos de 12 LLM, observando predicciones predominantemente por encima del punto medio del 50%. El valor medio del pronóstico de la multitud de LLM superó significativamente el 50%, y el 45% de las preguntas se resolvieron positivamente, lo que indica un sesgo hacia resultados positivos. En el Estudio 2, se analizaron 186 pronósticos primarios y actualizados de GPT-4 y Claude 2 en 31 preguntas. La exposición a los pronósticos de multitudes humanas mejoró significativamente la precisión del modelo y redujo los intervalos de predicción, con ajustes correlacionados con la desviación de los puntos de referencia humanos.

En conclusión, el MIT y otros han presentado su estudio en predicciones de conjuntos LLM. El estudio demuestra que cuando los LLM aprovechan la inteligencia colectiva, pueden rivalizar con los métodos humanos basados ​​en multitudes en el pronóstico probabilístico. Si bien investigaciones anteriores mostraron que los LLM tienen un rendimiento inferior en algunos contextos, la combinación de modelos más simples en multitudes puede cerrar la brecha. Este enfoque ofrece beneficios prácticos para diversas aplicaciones del mundo real, equipando potencialmente a los tomadores de decisiones con pronósticos políticos, económicos y tecnológicos precisos, allanando el camino para un uso social más amplio de las predicciones LLM.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.