¿Cómo se adapta la IA al tamaño de los datos? Este artículo de Stanford presenta una nueva clase de leyes de escalado de datos individualizados para el aprendizaje automático

Los modelos de aprendizaje automático para la visión y el lenguaje han mostrado mejoras significativas recientemente, gracias a tamaños de modelo más grandes y una enorme cantidad de datos de entrenamiento de alta calidad. Las investigaciones muestran que más datos de entrenamiento mejoran los modelos de manera predecible, lo que conduce a leyes de escala que explican el vínculo entre las tasas de error y el tamaño del conjunto de datos. Estas leyes de escala ayudan a decidir el equilibrio entre el tamaño del modelo y el tamaño de los datos, pero analizan el conjunto de datos como un todo sin considerar los ejemplos de entrenamiento individuales. Esto es una limitación porque algunos puntos de datos son más valiosos que otros, especialmente en conjuntos de datos ruidosos recopilados de la web. Por lo tanto, es fundamental comprender cómo cada punto o fuente de datos afecta el entrenamiento del modelo.

Los trabajos relacionados en este artículo analizan un método llamado Leyes de escala para el aprendizaje profundo, que se han vuelto populares en los últimos años. Estas leyes ayudan de varias maneras, incluida la comprensión de las compensaciones entre aumentar los datos de entrenamiento y el tamaño del modelo, predecir el rendimiento de modelos grandes y comparar qué tan bien funcionan diferentes algoritmos de aprendizaje en escalas más pequeñas. El segundo enfoque se centra en cómo los puntos de datos individuales pueden mejorar el rendimiento del modelo. Estos métodos generalmente califican los ejemplos de entrenamiento en función de su contribución marginal. Pueden identificar datos mal etiquetados, filtrar datos de alta calidad, aumentar la ponderación de los ejemplos útiles y seleccionar nuevos puntos de datos prometedores para el aprendizaje activo.

Los investigadores de la Universidad de Stanford han introducido un nuevo enfoque al investigar el comportamiento de escalamiento del valor de los puntos de datos individuales. Descubrieron que la contribución de un punto de datos al rendimiento de un modelo disminuye de manera predecible a medida que el conjunto de datos se hace más grande, siguiendo un patrón log-lineal. Sin embargo, esta disminución varía entre los puntos de datos, lo que significa que algunos puntos son más útiles en conjuntos de datos más pequeños, mientras que otros se vuelven más valiosos en conjuntos de datos más grandes. Además, se introdujeron un estimador de máxima verosimilitud y un estimador amortizado para aprender de manera eficiente estos patrones individuales a partir de una pequeña cantidad de observaciones ruidosas para cada punto de datos.

Se llevan a cabo experimentos para proporcionar evidencia de la ley de escalamiento paramétrico, centrándose en tres tipos de modelos: regresión logística, SVM y MLP (específicamente, redes ReLU de dos capas). Estos modelos se prueban en tres conjuntos de datos: MiniBooNE, CIFAR-10 y reseñas de películas de IMDB. Se utilizan incrustaciones preentrenadas como ResNet-50 congelado y BERT para acelerar el entrenamiento y evitar el desajuste para CIFAR-10 e IMDB, respectivamente. El rendimiento de cada modelo se mide utilizando la pérdida de entropía cruzada en un conjunto de datos de prueba de 1000 muestras. Para la regresión logística, se utilizan 1000 puntos de datos y 1000 muestras por valor k. Para SVM y MLP, debido a la mayor varianza en las contribuciones marginales, se utilizan 200 puntos de datos y 5000 muestras por tamaño de conjunto de datos k.

Los métodos propuestos se prueban prediciendo la precisión de las contribuciones marginales en cada tamaño de conjunto de datos. Por ejemplo, con el conjunto de datos IMDB y la regresión logística, las expectativas se pueden predecir con precisión para tamaños de conjuntos de datos que van desde k = 100 a k = 1000. Para evaluar esto sistemáticamente, se muestra la precisión de las predicciones de la ley de escala en diferentes tamaños de conjuntos de datos para ambas versiones de un estimador basado en verosimilitud utilizando diferentes muestras. Una versión más detallada de estos resultados muestra la reducción de la puntuación R2 cuando las predicciones se extienden más allá de k = 2500, mientras que la correlación y la correlación de rango con las expectativas reales se mantienen altas.

En conclusión, los investigadores de la Universidad de Stanford han desarrollado un nuevo método examinando cómo cambia el valor de los puntos de datos individuales con la escala. Encontraron evidencia de un patrón simple que funciona en diferentes conjuntos de datos y tipos de modelos. Los experimentos confirmaron esta ley de escala al mostrar una clara tendencia log-lineal y probar qué tan bien predice las contribuciones en diferentes tamaños de conjuntos de datos. La ley de escala se puede utilizar para predecir el comportamiento para conjuntos de datos más grandes que los probados inicialmente. Sin embargo, medir este comportamiento para un conjunto de datos de entrenamiento completo es costoso, por lo que los investigadores desarrollaron formas de medir los parámetros de escala utilizando una pequeña cantidad de observaciones ruidosas por punto de datos.

Datos de alta calidad en la investigación de IA.


Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios


Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.