Abrazando la cara de origen abierto FineVision: un nuevo conjunto de datos multimodal con 24 millones de muestras para capacitar a los modelos de lenguaje de visión (VLMS)

La cara abrazada acaba de lanzar Vía bellaun conjunto de datos multimodal abierto diseñado para establecer un nuevo estándar para modelos en idioma de visión (VLMS). Con 17.3 millones de imágenes, 24.3 millones de muestras, 88.9 millones de turnos de respuestay casi 10 mil millones de tokens de respuestaFineVision se posiciona en sí mismo como uno de los conjuntos de datos de capacitación VLM más grandes y estructurados de VLM.

Agregados de FineVision Más de 200 fuentes en un formato unificado, filtrado rigurosamente para duplicados y contaminación de referencia. Clasificado sistemáticamente a través de múltiples dimensiones de calidad, el conjunto de datos permite a los investigadores y desarrolladores construir mezclas de capacitación sólidas al tiempo que minimiza la fuga de datos.

¿Por qué es importante FineVision para el entrenamiento VLM?

La mayoría de los VLM de vanguardia se basan en conjuntos de datos patentados, limitando la reproducibilidad y la accesibilidad para la comunidad de investigación más amplia. FineVision aborda esta brecha por:

  • Escala y cobertura: 5 TB de datos curados en 9 categorías, incluidos VQA general, QA OCR, razonamiento de gráficos y tabla, ciencia, subtítulos, puesta a tierra y conteo y navegación de GUI.
  • Ganancias de referencia: Al otro lado de 11 puntos de referencia ampliamente utilizados (EG, AI2D, CACHQA, Docvqa, Scienceqa, Ocrbench), modelos entrenados en alternativas superiores a los márgenes significativos. 46.3% sobre Llava, 40.7% sobre calderoy 12.1% sobre Cambrian.
  • Nuevos dominios de habilidades: FineVision introduce datos para tareas emergentes como la navegación de la GUI, el apuntar y el contado, la expansión de las capacidades de los VLM más allá del subtítulos convencionales y VQA.

¿Cómo se construyó FineVision?

La tubería de curación siguió un proceso de tres pasos:

  1. Colección y aumento
    Se reunieron más de 200 conjuntos de datos de texto de imagen disponibles públicamente. Las modalidades faltantes (por ejemplo, datos de solo texto) se reformatearon en pares de control de calidad. Los dominios subrepresentados, como los datos de la GUI, se complementaron a través de la recopilación dirigida.
  2. Limpieza
    • Eliminaron pares de control de gran tamaño (> 8192 tokens).
    • Redimensionamiento de imágenes grandes a un máximo de 2048 px al tiempo que preserva la relación de aspecto.
    • Muestras corruptas descartadas.
  3. Calificación de calidad
    Usando QWEN3-32B y QWEN2.5-VL-32B-INSTRUP Como jueces, cada par de control de calidad se clasificó en cuatro ejes:
    • Calidad de formato de texto
    • Relevancia de respuesta a la pregunta
    • Dependencia visual
    • Correspondencia de la pregunta de imagen

    Estas calificaciones permiten mezclas de entrenamiento selectivo, aunque las ablaciones muestran que retener todas las muestras produce el mejor rendimientoincluso cuando se incluyen muestras de menor calificación.

Análisis comparativo: FineVision versus conjuntos de datos abiertos existentes

Conjunto de datos Imágenes Muestras Vueltas Tokens Fuga Perf. Caer después de la deduplicación
Caldera 2.0m 1.8m 27.8m 0.3b 3.05% -2.39%
Visión llava 2.5m 3.9m 9.1m 1.0b 2.15% -2.72%
Cámbrico-7m 5.4m 7.0m 12.2m 0.8b 2.29% -2.78%
Vía bella 17.3m 24.3m 88.9m 9.5b 1.02% -1.45%

FineVision no es solo uno de los más grandes, sino también el menos alucinado conjunto de datos, con solo 1% de superposición con conjuntos de pruebas de referencia. Esto garantiza una fuga de datos mínima y un rendimiento de evaluación confiable.

Insights de rendimiento

  • Configuración de modelo: Las ablaciones se realizaron usando nanovlm (Parámetros de 460m), combinando Smollm2-360m-Instructo como la columna vertebral del idioma y Siglip2-Base-512 como el codificador de visión.
  • Eficiencia de capacitación: En 32 GPU NVIDIA H100, una época completa (12k pasos) lleva ~ 20 horas.
  • Tendencias de rendimiento:
    • Los modelos finos mejoran de manera constante con la exposición a diversos datos, superando las líneas de base después de ~ 12k pasos.
    • Los experimentos de deduplicación confirman la baja fuga de FineVision en comparación con Cauldron, Llava y Cambrian.
    • Los subconjuntos multilingües, incluso cuando la columna vertebral es monolingüe, muestran ligeras ganancias de rendimiento, lo que sugiere que la diversidad supera la alineación estricta.
    • Los intentos de entrenamiento en varias etapas (dos o 2.5 etapas) no arrojaron beneficios consistentes, lo que refuerza eso escala + diversidad es más crítico que la heurística de capacitación.

Por qué FineVision trae el nuevo estándar?

  1. +20% de impulso de rendimiento promedio: Superenta todos los conjuntos de datos abiertos existentes en más de 10 puntos de referencia.
  2. Escala sin precedentes: 17m+ imágenes, 24m+ muestras, tokens 10b.
  3. Expansión de habilidades: Navegación GUI, conteo, señalización y razonamiento de documentos incluido.
  4. Fugas de datos más bajas: 1% de contaminación, en comparación con 2–3% en otros conjuntos de datos.
  5. Código abierto completamente abierto: Disponible en abrazar el centro facial para uso inmediato a través del datasets biblioteca.

Conclusión

FineVision marca un avance significativo en conjuntos de datos multimodales abiertos. Su gran escala, curación sistemática y evaluaciones de calidad transparentes crean una base reproducible y extensible para capacitar a modelos en idioma de visión de última generación. Al reducir la dependencia de los recursos patentados, permite a los investigadores y desarrolladores construir sistemas competitivos y acelerar el progreso en áreas como el análisis de documentos, el razonamiento visual y las tareas multimodales de agente.


Mira el Conjunto de datos y Detalle técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.