Screenshot 2024 06 12 At 1.25.38 Am.png

Predecir el comportamiento de escala de sistemas de inteligencia artificial de vanguardia como GPT-4, Claude y Gemini es esencial para comprender su potencial y tomar decisiones sobre su desarrollo y uso. Sin embargo, es difícil predecir cómo se desempeñarán estos sistemas en tareas específicas a medida que crecen, a pesar de la relación bien establecida entre parámetros, datos, computación y pérdida previa al entrenamiento definida por las leyes de escalamiento. Por ejemplo, el rendimiento en los puntos de referencia estándar de PNL a veces puede mostrar cambios impredecibles con la escala. Algunos estudios sugieren que estos cambios impredecibles podrían deberse a la elección de métricas y a la falta de resolución.

Este artículo contiene dos direcciones principales. El primero es “Más allá de los puntos de referencia de opción múltiple”, donde el estudio se centra en puntos de referencia evaluados utilizando formatos de opción múltiple basados ​​en la probabilidad logarítmica. Si bien este enfoque es valioso debido a la utilidad y prevalencia de tales tareas, limita la aplicación más amplia de los hallazgos. La segunda dirección es “Predecir el rendimiento de los puntos de referencia a priori”, lo que explica por qué el rendimiento de los puntos de referencia de opción múltiple es difícil de predecir utilizando métricas como la precisión y la puntuación Brier. Sin embargo, los análisis suponen acceso a las puntuaciones de familias de modelos completas en varios órdenes de magnitud de FLOP previos al entrenamiento y no utilizan pruebas retrospectivas.

Investigadores de la Universidad de Cambridge, Stanford CS, EleutherAI y MILA han demostrado que las métricas comunes de opción múltiple, como la precisión, la puntuación Brier y la probabilidad correcta, se pueden evaluar a partir de los resultados del modelo sin procesar. Esto se logra mediante una secuencia de transformaciones que degrada gradualmente la relación estadística entre estas métricas y los parámetros de escala. La razón principal es que estas métricas dependen de una comparación directa entre los resultados correctos y un conjunto limitado de resultados incorrectos específicos. Por lo tanto, para predecir con precisión el rendimiento posterior es necesario modelar cómo fluctúa la masa de probabilidad entre alternativas incorrectas particulares.

Los investigadores trabajaron en cómo la masa de probabilidad de elecciones incorrectas fluctúa con el aumento de la computación. Esto ayuda a comprender por qué las métricas individuales posteriores pueden ser impredecibles, mientras que las leyes de escalamiento de pérdidas previas al entrenamiento son más consistentes ya que no dependen de elecciones incorrectas específicas. Para diseñar evaluaciones que realicen un seguimiento eficaz del progreso de las capacidades avanzadas de IA, es importante comprender qué afecta el rendimiento posterior. Además, para ver cómo las capacidades posteriores en tareas específicas cambian con la escala para diferentes familias de modelos, se generan puntuaciones por muestra a partir de varias familias de modelos y puntos de referencia de PNL de opción múltiple.

Para predecir con precisión el rendimiento en pruebas de preguntas y respuestas de opción múltiple, es importante comprender cómo cambia la probabilidad de elegir la respuesta correcta con la escala, así como cómo cambia con la escala la probabilidad de elegir la respuesta incorrecta. Para métricas como la Precisión, estas predicciones deben realizarse para cada pregunta porque conocer la probabilidad promedio de elegir respuestas incorrectas en muchas preguntas no especifica la probabilidad de elegir una respuesta incorrecta específica para una pregunta en particular. Es especialmente importante observar cómo las probabilidades de elegir las respuestas correctas e incorrectas cambian juntas a medida que se utiliza más potencia computacional.

En conclusión, los investigadores han encontrado un factor que causa imprevisibilidad en las pruebas de opción múltiple para modelos de IA de frontera. Este factor es la probabilidad de elegir respuestas incorrectas. Los resultados pueden influir en el diseño de futuras evaluaciones de modelos de IA de frontera que sean fiablemente predecibles con el escalamiento. El trabajo futuro se centra en crear evaluaciones más predecibles para los sistemas de IA, particularmente para capacidades complejas e importantes. Los investigadores dieron varias direcciones futuras para ampliar el trabajo y adoptar su marco para mejorar aún más las evaluaciones predecibles en escala.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.