Los modelos en idioma de visión (VLMS) enfrentan un desafío crítico para lograr una generalización sólida más allá de sus datos de capacitación mientras se mantiene los recursos computacionales y la eficiencia rentable. Los enfoques, como la cadena de pensamiento, el ajuste fino (Cot-SFT), a menudo conducen al sobreajuste, donde los modelos funcionan bien en los datos vistos pero luchan con nuevos escenarios invisibles. Esta limitación reduce su efectividad en aplicaciones que exigen adaptabilidad, como sistemas autónomos, imágenes médicas y tareas de razonamiento visual. Además, la suposición predominante es que aumentar el tamaño del modelo es la clave para mejorar el rendimiento. La necesidad de un paradigma de entrenamiento más eficiente que mejore la generalización, minimice el sobreajuste y reduce los costos computacionales se ha vuelto crucial para avanzar en VLM.
Agente profundo lanzado R1-V para resolver algunas de las preocupaciones anteriores. Este nuevo enfoque de aprendizaje de refuerzo mejora la capacidad de generalización de los VLM al tiempo que es rentable. Este enfoque demuestra cómo Aprendizaje de refuerzo con recompensas verificables (RLVR) puede superar a la cot-SFT tradicional en efectividad y robustez cuando se trata de datos fuera de distribución (OOD).
El objetivo principal del enfoque R1-V es mejorar la capacidad de VLM para generalizar más allá de sus conjuntos de datos de capacitación. R1-V aborda este problema empleando técnicas de aprendizaje de refuerzo que guían el modelo para aprender habilidades generalizables en lugar de memorizar ejemplos de capacitación. En particular, se centra en la enseñanza de VLM para desarrollar habilidades de conteo visual robustas, una habilidad esencial en muchas aplicaciones de IA, incluidos el reconocimiento de imágenes, los sistemas autónomos y el razonamiento visual.
Lo más destacado de R1-V es su eficiencia de entrenamiento. A pesar de utilizar un modelo relativamente pequeño con solo 2 mil millones de parámetros, R1-V funciona mejor que un modelo de parámetros de 72 mil millones significativamente mayor en las pruebas OOD. Esto demuestra que el tamaño del modelo no es el único determinante del rendimiento; La metodología de capacitación y las estrategias de aprendizaje de refuerzo son cruciales para mejorar las capacidades de un modelo.
R1-V fue entrenado en ocho GPU A100 durante 30 minutos, con un costo computacional total de solo $ 2.62. Esta rentabilidad lo convierte en una alternativa atractiva para investigadores y desarrolladores que desean lograr un alto rendimiento sin recursos computacionales extensos. R1-V también se destaca debido a su dependencia de un conjunto de datos de entrenamiento curado. El modelo fue entrenado usando CLEVR-70K y Conjuntos de datos de razonamiento visual designado por R1diseñado específicamente para fomentar el razonamiento visual y la toma de decisiones robustas. El uso de estos conjuntos de datos garantiza que el modelo desarrolle una comprensión profunda de las relaciones visuales y el razonamiento lógico en lugar de simplemente aprender a reconocer los patrones de un conjunto de datos determinado.
En conclusión, el desarrollo de R1-V admite la investigación de IA de código abierto al hacer su código, pesos de modelos, conjuntos de datos y scripts de capacitación disponibles públicamente. Esto permite que la comunidad de investigación de IA refine y mejore el modelado del idioma de la visión. El enfoque de aprendizaje de refuerzo de R1-V permite un aprendizaje rápido de patrones y estructuras en los datos. Conduce a un alto rendimiento con un costo computacional mínimo. Esto desafía la suposición de que la capacitación extensa y los conjuntos de datos masivos son necesarios para el rendimiento de IA de última generación. En cambio, las metodologías de capacitación eficientes pueden reducir las demandas computacionales mientras se mantienen o superan los resultados tradicionales.
Verificar el Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.