Se ha producido un cambio de paradigma en el aprendizaje multimodal gracias a las contribuciones de grandes modelos básicos multimodales como CLIP, Flamingo y Stable Diffusion, que permiten mejoras antes inimaginables en la generación de imágenes y la generalización de disparo cero. Estos modelos de referencia generalmente se entrenan en grandes conjuntos de datos estáticos a escala web. Se desconoce si los modelos heredados, como los modelos CLIP de OpenAI, que fueron entrenados con datos a escala de Internet hasta 2020, funcionarán o no con datos futuros.
Para empezar, investigadores de Apple y la Universidad Carnegie Mellon examinan cómo los modelos CLIP de OpenAI se comparan con los del repositorio OpenCLIP que se desarrollaron utilizando conjuntos de datos web seleccionados más actualizados que incluyen datos hasta 2022 en términos de solidez. Debido a la falta de un estándar con el que se puedan medir los modelos CLIP, han compilado un conjunto de tareas dinámicas de clasificación y recuperación que cubren el período 2014-2022. Si bien los modelos OpenCLIP mantienen su rendimiento, el equipo descubrió que los modelos OpenAI muestran una disparidad sustancial en el rendimiento de recuperación de datos de 2021-2022 en comparación con 2014-2016. Si bien los modelos CLIP de OpenAI son ligeramente más robustos que los modelos OpenCLIP, esto no se refleja completamente en pruebas típicas como la precisión de los cambios de distribución de ImageNet.
Su trabajo revela que el uso de puntos de referencia estáticos (como ImageNet) tiene sus limitaciones y que los modelos deben adaptarse y evolucionar junto con las distribuciones cambiantes de datos. Un método simplista pero frecuente para adaptarse a los datos cambiantes es comenzar de nuevo cada vez que obtienen un nuevo conjunto de datos de imagen y texto y entrenar un nuevo modelo CLIP. El razonamiento detrás de este método es que es más difícil adaptar el comportamiento de un modelo a nuevas entradas cuando el entrenamiento se inicia desde un modelo ya existente. Sin embargo, no es práctico invertir repetidamente el tiempo y la energía necesarios para entrenar nuevos modelos básicos desde el principio.
Los esfuerzos recientes centrados en técnicas de aprendizaje perpetuo para modelos CLIP han tenido como objetivo principalmente aumentar la eficiencia en una sola tarea posterior o en una pequeña cantidad de tareas. Aunque algunas investigaciones recientes han comenzado a abordar estos problemas, los puntos de referencia actuales tienen un alcance demasiado modesto o carecen de datos de imagen y texto vinculados para ser realmente útiles.
Como primer paso hacia el entrenamiento continuo en el tiempo (TIC) de los modelos CLIP, los investigadores observan el cambio natural en la distribución de datos a lo largo del tiempo. Al incluir datos de “tiempo de rastreo” en el conjunto de datos CommonPool ya existente, establecen TIC-DataComp como un nuevo punto de referencia para el entrenamiento continuo en el tiempo de modelos CLIP. Los investigadores también reciclan conjuntos de datos a gran escala de Internet, recopilados de lugares como Reddit y Flickr, para nuevos propósitos. En particular, utilizan la información horaria proporcionada por YFCC y Redcaps para seleccionar TIC-YFCC y TICRedCaps, respectivamente. Siempre que esté disponible un nuevo conjunto de datos, este trabajo tiene como objetivo desarrollar técnicas de aprendizaje continuo que puedan funcionar dentro de un presupuesto computacional limitado. Estas estrategias van en contra de Oracle, que restablece sus parámetros de entrenamiento cada vez que recibe nuevos datos y gasta su presupuesto informático acumulado en un modelo completamente nuevo.
Los investigadores llevan a cabo una evaluación inicial de modelos entrenados en el marco TIC-CLIP utilizando una batería de 28 tareas de clasificación y recuperación bien establecidas, como ImageNet, cambios de distribución de ImageNet y Flickr. Finalmente, utilizando sus puntos de referencia, diseñan y prueban una variedad de enfoques de aprendizaje continuo, incluidos búferes de reproducción, programas de tasa de aprendizaje y otros tipos de puntos de control (como inicio en caliente, parches y destilación).
El equipo extrae una lección importante: al comenzar el entrenamiento en el punto de control más reciente y reproducir todos los datos históricos, la técnica acumulativa ofrece un rendimiento a la par de un Oracle con 2,7 veces la eficiencia informática. También obtienen información importante sobre los programas de tasas de aprendizaje para el entrenamiento secuencial y muestran compensaciones interesantes entre los tamaños de búfer para el rendimiento estático y dinámico. Sus hallazgos son consistentes en todas las dimensiones y técnicas, destacando tendencias de conjuntos de datos que van desde 11 millones de muestras hasta 3 mil millones. El código y los datos de tiempo recopilados sobre los conjuntos de datos existentes pronto se harán públicos para que la comunidad en general pueda utilizar los puntos de referencia propuestos. El equipo espera que, al arrojar luz sobre este tema poco explorado, su trabajo pueda allanar el camino para la formación continua de modelos básicos.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.