La integración de los datos visuales y textuales en la inteligencia artificial presenta un desafío complejo. Los modelos tradicionales a menudo luchan por interpretar documentos visuales estructurados como tablas, cuadros, infografías y diagramas con precisión. Esta limitación afecta la extracción y comprensión de contenido automatizado, que son cruciales para las aplicaciones en el análisis de datos, la recuperación de información y la toma de decisiones. A medida que las organizaciones confían cada vez más en ideas impulsadas por la IA, la necesidad de modelos capaces de procesar efectivamente la información visual y textual ha crecido significativamente.

IBM ha abordado este desafío con el lanzamiento de Granito-visión-3.1-2Bun modelo compacto en idioma de visión diseñado para la comprensión de los documentos. Este modelo es capaz de extraer contenido de diversos formatos visuales, incluidas tablas, cuadros y diagramas. Entrenado en un conjunto de datos bien curado que comprende fuentes públicas y sintéticas, está diseñado para manejar una amplia gama de tareas relacionadas con los documentos. Afino de un granito modelo de lenguaje grandeGranite-Vision-3.1-2b integra modalidades de imagen y texto para mejorar sus capacidades interpretativas, lo que lo hace adecuado para varias aplicaciones prácticas.

El modelo consta de tres componentes clave:

  1. Codificador de visión: Utiliza Siglip para procesar y codificar datos visuales de manera eficiente.
  2. Conector en idioma de visión: Un perceptrón multicapa de dos capas (MLP) con funciones de activación GELU, diseñadas para cerrar la información visual y textual.
  3. Modelo de lenguaje grande: Construido sobre el instructo Granite-3.1-2B, con una longitud de contexto de 128k para manejar entradas complejas y extensas.

El proceso de capacitación se basa en LLAVA e incorpora características de codificadores de múltiples capas, junto con una resolución de cuadrícula más densa en Anyres. Estas mejoras mejoran la capacidad del modelo para comprender el contenido visual detallado. Esta arquitectura permite que el modelo realice varias tareas de documentos visuales, como analizar tablas y gráficos, ejecutar el reconocimiento de caracteres ópticos (OCR) y responder consultas basadas en documentos con mayor precisión.

Las evaluaciones indican que la visión de granito-3.1-2B funciona bien en múltiples puntos de referencia, particularmente en la comprensión de los documentos. Por ejemplo, logró una puntuación de 0.86 en el punto de referencia de CHARTQA, superando otros modelos dentro del rango de parámetros 1B-4B. En el punto de referencia TextVQA, alcanzó una puntuación de 0.76, demostrando un fuerte rendimiento al interpretar y responder a preguntas basadas en información textual integrada en imágenes. Estos resultados destacan el potencial del modelo para aplicaciones empresariales que requieren un procesamiento preciso de datos visuales y textuales.

La visión Granite-3.1-2B de IBM representa un avance notable en los modelos en idioma de visión, que ofrece un enfoque bien equilibrado para la comprensión de los documentos visuales. Su metodología de arquitectura y entrenamiento le permite interpretar y analizar eficientemente datos visuales y textuales complejos. Con el soporte nativo para Transformers y VLLM, el modelo es adaptable a varios casos de uso y puede implementarse en entornos basados ​​en la nube como Colab T4. Esta accesibilidad lo convierte en una herramienta práctica para investigadores y profesionales que buscan mejorar las capacidades de procesamiento de documentos impulsados ​​por la IA.


Verificar el IBM-Granite/Granite-Vision-3.1-2B previa y IBM-Granite/Granite-3.1-2B-Instructo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional’ (Promocionado)


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Por automata