Desafíos en los subtítulos localizados para modelos en idioma de visión
Describir regiones específicas dentro de imágenes o videos sigue siendo un desafío persistente en el modelado del idioma de la visión. Mientras que los modelos en idioma de visión de uso general (VLM) funcionan bien para generar subtítulos globales, a menudo se quedan cortos en la producción de descripciones detalladas y específicas de la región. Estas limitaciones se amplifican en los datos de video, donde los modelos deben tener en cuenta la dinámica temporal. Los obstáculos principales incluyen una pérdida de detalles de grano fino durante la extracción de características visuales, conjuntos de datos anotados insuficientes diseñados para una descripción regional y puntos de referencia de evaluación que penalizan salidas precisas debido a los subtítulos de referencia incompletos.
Describa cualquier cosa 3b, un modelo diseñado para descripciones localizadas
Este trabajo de IA de Nvidia presenta describir cualquier cosa 3B (DAM-3B), una multimodal modelo de lenguaje grande Construido especialmente para subtítulos detallados y localizados a través de imágenes y videos. Acompañado de DAM-3B-Video, el sistema acepta entradas que especifican regiones a través de puntos, cuadros delimitadores, garabatos o máscaras y genera texto descriptivo y contextualmente fundamentado. Es compatible con imágenes estáticas y entradas de video dinámicas, y los modelos están disponibles públicamente a través de la cara abrazada.
Componentes arquitectónicos básicos y diseño de modelo
DAM-3B incorpora dos innovaciones principales: un aviso focal y un columna vertebral de visión localizada mejorado con atención cruzada cerrada. El aviso focal fusiona una imagen completa con una cosecha de alta resolución de la región objetivo, conservando tanto los detalles regionales como el contexto más amplio. Esta entrada de doble visión es procesada por la columna vertebral de visión localizada, que incorpora la imagen y las entradas de máscaras y aplica la atención cruzada para combinar características globales y focales antes de pasarlas a un modelo de lenguaje grande. Estos mecanismos se integran sin inflar la longitud del token, preservando la eficiencia computacional.
DAM-3B-Video extiende esta arquitectura a secuencias temporales codificando máscaras de región de cuadro e integrándolas a lo largo del tiempo. Esto permite generar descripciones específicas de la región para videos, incluso en presencia de oclusión o movimiento.
Capacitación de la estrategia de datos y los puntos de referencia de evaluación
Para superar la escasez de datos, NVIDIA desarrolla la tubería DLC-SDP, una estrategia de generación de datos semi-supervisada. Este proceso de dos etapas utiliza conjuntos de datos de segmentación e imágenes de escala web no etiquetadas para curar un corpus de capacitación de 1.5 millones de ejemplos localizados. Las descripciones de la región se refinan utilizando un enfoque de autodenomisión, produciendo subtítulos de alta calidad.
Para la evaluación, el equipo presenta DLC Bench, que evalúa la calidad de la descripción en función de la corrección a nivel de atributos en lugar de las comparaciones rígidas con subtítulos de referencia. DAM-3B logra el rendimiento líder en siete puntos de referencia, superando las líneas de base como GPT-4O y VideoFefer. Demuestra resultados sólidos en el nivel de palabras clave (LVIS, PACO), el nivel de frase (entidades FlickR30K) y el subtítulos localizados de múltiples oraciones (Ref-L4, HC-STVG). En el banco DLC, DAM-3B logra una precisión promedio de 67.3%, superando a otros modelos tanto en detalle como en precisión.
Conclusión
Describa cualquier cosa que 3b aborde las limitaciones de larga data en el subtítulos específicos de la región combinando una arquitectura consciente del contexto con una tubería de datos escalable y de alta calidad. La capacidad del modelo para describir el contenido localizado en imágenes y videos tiene una amplia aplicabilidad en todos los dominios, como herramientas de accesibilidad, robótica y análisis de contenido de video. Con este lanzamiento, NVIDIA proporciona un punto de referencia robusto y reproducible para futuras investigaciones y establece una dirección técnica refinada para la próxima generación de sistemas de IA multimodales.
Mira el Papel, Modelo en la cara abrazada y Página del proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.