Los grandes modelos multimodales (LMM) han demostrado capacidades notables cuando se entrenan en datos extensos de texto visual, que avanzan significativamente las tareas de comprensión multimodal. Sin embargo, estos modelos luchan con el conocimiento complejo del mundo real, particularmente la información de cola larga que surge después de capacitar recortes o conocimiento específico de dominio restringido por la privacidad, los derechos de autor o las preocupaciones de seguridad. Cuando se ve obligado a operar más allá de sus límites de conocimiento interno, los LMM a menudo producen alucinaciones, comprometiendo severamente su confiabilidad en escenarios donde la precisión objetiva es primordial. Mientras que la generación de recuperación aumentada (TRAPO) se ha implementado ampliamente para superar estas limitaciones, introduce sus desafíos: la recuperación desacoplada y los componentes de generación resisten la optimización de extremo a extremo, y su rígido enfoque “recuperar y generar” desencadena recuperaciones innecesarias incluso cuando el modelo ya posee suficiente conocimiento, lo que resulta en un mayor latencia y costos computacionales.
Los enfoques recientes han hecho avances significativos para abordar las limitaciones de conocimiento en modelos grandes. Los métodos de aprendizaje de refuerzo de extremo a extremo (RL) como OpenAI’s O-Series, Deepseek-R1 y Kimi K-1.5 tienen capacidades de razonamiento modelo notablemente mejoradas. Simultáneamente, los modelos de investigación profunda desarrollados por los principales laboratorios de IA han demostrado que los modelos de entrenamiento para interactuar directamente con el contenido de Internet mejoran sustancialmente su rendimiento en tareas complejas del mundo real. A pesar de estos avances, los desafíos persisten en integrar eficientemente la recuperación de conocimiento externo con las capacidades de generación. Los métodos actuales priorizan el razonamiento sin acceso de conocimiento optimizado o se centran en mecanismos de recuperación que no se integran perfectamente con el proceso de generación del modelo. Estos enfoques a menudo no logran lograr el equilibrio óptimo entre la eficiencia computacional, la precisión de la respuesta y la capacidad de manejar información dinámica, dejando un margen significativo para la mejora en la creación de sistemas multimodales verdaderamente adaptables y conscientes del conocimiento.
Los investigadores han intentado explorar un marco RL de extremo a extremo para extender los límites de capacidad de LMM. E intenté responder a las siguientes preguntas:
(1) ¿Se pueden capacitar a los LMM para percibir sus límites de conocimiento y aprender a invocar herramientas de búsqueda cuando sea necesario?
(2) ¿Cuál es la efectividad y la eficiencia del enfoque RL?
(3) ¿Podría el marco RL conducir a la aparición de comportamientos inteligentes multimodales robustos?
Esta investigación presenta Mmsearch-r1, que representa un enfoque pionero para equipar LMM con capacidades de búsqueda de imágenes activas a través de un marco de aprendizaje de refuerzo de extremo a extremo. Este método robusto se enfoca específicamente en mejorar el rendimiento de la respuesta de las preguntas visuales (VQA) al permitir que los modelos se involucren de forma autónoma con las herramientas de búsqueda de imágenes. MMSEARCH-R1 entrena modelos para tomar decisiones críticas sobre cuándo iniciar las búsquedas de imágenes y cómo procesar de manera efectiva la información visual recuperada. El sistema se destaca por extraer, sintetizar y utilizar datos visuales relevantes para respaldar procesos de razonamiento sofisticados. Como un avance fundamental en la IA multimodal, MMSEARCH-R1 permite a LMM interactuar dinámicamente con las herramientas externas de manera orientada a objetivos, mejorando significativamente el rendimiento en las tareas VQA de cola larga y de cola larga que tradicionalmente desafían modelos convencionales con sus bases de conocimiento estático.
MMSEARCH-R1 emplea una arquitectura integral que combina ingeniería de datos sofisticada con técnicas avanzadas de aprendizaje de refuerzo. El sistema se basa en el sólido conjunto de datos FactualVQA, construido específicamente para proporcionar respuestas inequívocas que pueden evaluarse de manera confiable con métodos automatizados. Este conjunto de datos se creó extrayendo 50,000 conceptos visuales de secciones familiares y desconocidas de la distribución de metadatos Metaclip, recuperando imágenes asociadas y utilizando GPT-4O para generar pares de preguntas y respuestas objetivas. Después de rigurosos procesos de filtrado y equilibrio, el conjunto de datos garantiza una combinación óptima de consultas que se pueden responder con y sin asistencia de búsqueda de imágenes.
El marco de aprendizaje de refuerzo adapta el algoritmo GRPO estándar con despliegue de múltiples vueltas, integrando una herramienta de búsqueda de imágenes avanzada basada en el marco de Verl para la capacitación de extremo a extremo. Esta capacidad de búsqueda de imágenes combina Serpapi, Jina Reader para extracción de contenido y resumen basado en LLM para recuperar y procesar el contenido web relevante asociado con las imágenes. El sistema emplea una función de recompensa cuidadosamente calibrada que equilibra la corrección de las respuestas, el formato adecuado y una penalización leve para el uso de la herramienta, calculada como 0.9 × (puntaje – 0.1) + 0.1 × formato cuando se usa la búsqueda de imágenes, y 0.9 × puntaje + 0.1 × formato cuando no lo es.
Los resultados experimentales demuestran las ventajas de rendimiento significativas de MMSEARCH-R1 en múltiples dimensiones. Las capacidades de búsqueda de imágenes amplían efectivamente los límites de conocimiento de grandes modelos multimodales, con el sistema aprendiendo a tomar decisiones inteligentes sobre cuándo iniciar las búsquedas mientras evita la excesiva dependencia de las herramientas externas. Tanto las implementaciones supervisadas de ajuste fino (SFT) como las implementaciones de aprendizaje de refuerzo muestran mejoras sustanciales de rendimiento en las pruebas de FactualVQA en dominio y los puntos de referencia fuera de dominio, incluidos Infoseek, MMSEARCH y el truco. Además, los modelos ajustan dinámicamente sus tasas de búsqueda en función de la familiaridad del contenido visual, manteniendo la utilización eficiente de los recursos al tiempo que maximizan la precisión.
El aprendizaje de refuerzo demuestra una eficiencia superior en comparación con los enfoques supervisados de ajuste fino. Cuando se aplica directamente a los modelos QWEN2.5-VL-Instructo-3B/7B, GRPO logra mejores resultados a pesar de usar solo la mitad de los datos de entrenamiento requeridos por los métodos SFT. Esta notable eficiencia destaca la efectividad de RL para optimizar el rendimiento del modelo con recursos limitados. La capacidad del sistema para equilibrar el acceso al conocimiento con la eficiencia computacional representa un avance significativo en la creación de sistemas multimodales más conscientes de los recursos pero altamente capaces que pueden utilizar de manera inteligente fuentes de conocimiento externas.
MMSEARCH-R1 demuestra con éxito que el aprendizaje de refuerzo basado en resultados puede capacitar efectivamente modelos multimodales grandes con capacidades de búsqueda de imágenes activas. Este enfoque permite a los modelos decidir de forma autónoma cuándo utilizar fuentes de conocimiento visual externas mientras mantiene la eficiencia computacional. Los resultados prometedores establecen una base sólida para desarrollar LMM futuros acoplados por herramientas y capaces de razonamiento que pueden interactuar dinámicamente con el mundo visual.
Verificar el Blog y Código. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.
Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.