Skywork AI avanza Razonamiento multimodal: Introducción de Skywork R1V2 con aprendizaje de refuerzo híbrido

Los avances recientes en la IA multimodal han resaltado un desafío persistente: lograr fuertes capacidades de razonamiento especializadas al tiempo que preservan la generalización en diversas tareas. Los modelos de “pensamiento lento” como OpenAI-O1 y Gemini-Thinking han avanzado en el razonamiento analítico deliberado, pero a menudo exhiben un rendimiento comprometido en las tareas generales de comprensión visual, con mayores tendencias hacia las alucinaciones visuales. A medida que el campo progresa hacia la construcción de sistemas de IA de uso general, reconciliar esta compensación sigue siendo un problema de investigación crítico.

Skywork Ai presenta Skywork R1V2

SkyWork AI ha lanzado SkyWork R1V2, un modelo de razonamiento multimodal de próxima generación diseñado para abordar el compensación de generería de razonamiento sistemáticamente. Sobre la base de la base de Skywork R1V, R1V2 introduce un marco de aprendizaje de refuerzo híbrido, combinando la guía del modelo de recompensa con señales estructuradas basadas en reglas. El modelo evita la dependencia convencional de la destilación de maestros alumnos al aprender directamente de las interacciones multimodales, ofreciendo un avance abierto y reproducible a través de su liberación en la cara abrazada.

Enfoque técnico e innovaciones

Skywork R1V2 incorpora la optimización de políticas relativas del grupo (GRPO) junto con un búfer de muestra selectivo (SSB) para mejorar la estabilidad y la eficiencia del entrenamiento. GRPO permite la evaluación relativa entre las respuestas candidatas dentro del mismo grupo de consultas, pero los problemas de convergencia pueden disminuir las señales de aprendizaje efectivas. El mecanismo SSB aborda esto al mantener un caché de muestras informativas, asegurando el acceso continuo a gradientes de alto valor.

Además, el modelo adopta una estrategia de optimización de preferencias mixtas (MPO), integrando las preferencias basadas en el modelo de recompensa con restricciones basadas en reglas. Esta optimización híbrida permite que SkyWork R1V2 fortalezca la calidad del razonamiento paso a paso al tiempo que mantiene la consistencia en las tareas de percepción general. Un enfoque de entrenamiento modular, que utiliza adaptadores livianos entre un codificador de visión interno congelado de VIT-6B y un modelo de lenguaje previamente pretrados, preserva las capacidades de razonamiento del modelo de lenguaje al tiempo que optimiza la alineación intermodal de manera eficiente.

Resultados y análisis empíricos

Skywork R1V2 demuestra un rendimiento robusto en una gama de razonamiento y puntos de referencia multimodales. En las tareas de razonamiento de texto, el modelo logra 78.9% en AIME2024, 63.6% en LivecodeBench, 73.2% en LiveBench, 82.9% en Ifeval y 66.3% en BFCL. Estos resultados representan mejoras significativas sobre SkyWork R1V1 y son competitivos con modelos sustancialmente más grandes, como Deepseek R1 (parámetros 671B).

En la evaluación multimodal, R1V2 logra 73.6% en MMMU, 74.0% en Mathvista, 62.6% en Olympiadbench, 49.0% en MathVision y 52.0% en MMMU-Pro. El modelo supera constantemente las líneas de base de código abierto de tamaño comparable o mayor, incluidos QWEN2.5-VL-72B y QVQ-Preview-72B, particularmente sobresaliendo en tareas que requieren resolución estructurada de problemas a través de entradas visuales y textuales.

En comparación con los modelos propietarios, R1v2 demuestra brechas de rendimiento estrechas. Supora el flash Claude 3.5 Sonnet y Gemini 2 en puntos de referencia multimodales críticos como MMMU y Mathvista. Es importante destacar que las tasas de alucinación se redujeron sustancialmente al 8,7% a través de estrategias de refuerzo calibradas, manteniendo la integridad objetiva junto con el razonamiento complejo.

Las evaluaciones cualitativas ilustran aún más el enfoque sistemático de resolución de problemas de R1V2, con el modelo que demuestra comportamientos metódicos de descomposición y verificación en tareas científicas y matemáticas complejas, reforzando su alineación con patrones cognitivos reflexivos.

Conclusión

Skywork R1V2 avanza el estado de razonamiento multimodal a través de un marco de aprendizaje de refuerzo híbrido cuidadosamente diseñado. Al abordar el problema de las ventajas de desaparición con el búfer de muestra selectiva y el equilibrio de las señales de optimización a través de la optimización de preferencias mixtas, el modelo logra mejoras notables en tareas de razonamiento especializadas y comprensión multimodal general.

Con actuaciones líderes de referencia como el 62.6% en Olympiadbench y 73.6% en MMMU, Skywork R1V2 establece una fuerte línea de base de código abierto. Sus principios de diseño y metodología de capacitación ofrecen un enfoque pragmático para desarrollar sistemas de IA multimodales robustos y eficientes. Las instrucciones futuras para Skywork AI incluyen mejorar las capacidades generales de comprensión visual al tiempo que preservan los fundamentos de razonamiento sofisticados establecidos por R1V2.


Mira el Papel y Modelo en Huggingface. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.