Nvidia ha introducido Llama nemotron nano vlUn modelo de lenguaje de visión (VLM) diseñado para abordar las tareas de comprensión a nivel de documentos con eficiencia y precisión. Construido en la arquitectura LLAMA 3.1 y junto con un codificador de visión liviano, este lanzamiento se dirige a aplicaciones que requieren un análisis preciso de estructuras de documentos complejos, como formularios escaneados, informes financieros y diagramas técnicos.
Descripción general del modelo y arquitectura
Llama Nemotron Nano VL integra el Codiov2-H Vision Coder con un Llama 3.1 Modelo de lenguaje sintonizado con instructos 8Bformando una tubería capaz de procesar conjuntamente entradas multimodales, incluidos documentos de varias páginas con elementos visuales y textuales.
La arquitectura está optimizada para la inferencia de token-eficiente, admitiendo hasta Longitud de contexto de 16k a través de secuencias de imagen y texto. El modelo puede procesar múltiples imágenes junto con la entrada textual, lo que lo hace adecuado para tareas multimodales de forma larga. La alineación del texto de visión se logra a través de capas de proyección y codificación posicional rotativa adaptada para incrustaciones de parches de imagen.
La capacitación se realizó en tres fases:
- Etapa 1: Pretratenamiento de texto de imagen entrelazado en imágenes comerciales y conjuntos de datos de video.
- Etapa 2: Ajuste de instrucciones multimodal para habilitar la solicitud interactiva.
- Etapa 3: Revenciones de datos de instrucciones de solo texto, mejorando el rendimiento en los puntos de referencia estándar de LLM.
Todo el entrenamiento se realizó con Nvidia’s Marco de megatron-llm con Energon Dataloader, distribuido sobre grupos con GPU A100 y H100.
Resultados y evaluación de referencia
Llama Nemotron Nano VL se evaluó en Ocrbench v2un punto de referencia diseñado para evaluar la comprensión de la visión a nivel de documentos a través de OCR, análisis de tabla y tareas de razonamiento del diagrama. Ocrbench incluye más de 10,000 pares de control de calidad verificados por humanos que abarcan documentos de dominios como Finanzas, atención médica, legal y publicación científica.
Los resultados indican que el modelo logra precisión de última generación Entre VLMS compactos en este punto de referencia. En particular, su rendimiento es competitivo con modelos más grandes y menos eficientes, particularmente en la extracción de datos estructurados (por ejemplo, tablas y pares de valores clave) y consultas dependientes de diseño.
El modelo también se generaliza entre documentos no ingleses y la calidad de la exploración degradada, lo que refleja su robustez en condiciones del mundo real.
Despliegue, cuantización y eficiencia
Diseñado para una implementación flexible, Nemotron Nano VL admite escenarios de inferencia de servidor y borde. Nvidia proporciona un Versión cuantificada de 4 bits (AWQ) para una inferencia eficiente usando Tinychat y Tensorrt-llmcon compatibilidad para Jetson Orin y otros entornos restringidos.
Las características técnicas clave incluyen:
- Soporte de NIM modular (microservicio de inferencia nvidia)Simplificar la integración de API
- Soporte de exportación ONNX y Tensorrtgarantizar la compatibilidad de aceleración de hardware
- Opción de incrustaciones de visión precomputadashabilitando una latencia reducida para documentos de imagen estática
Conclusión
Llama Nemotron Nano VL representa una compensación bien diseñada entre el rendimiento, la duración del contexto y la eficiencia de despliegue en el dominio de la comprensión de los documentos. Su arquitectura, anclada en Llama 3.1 y mejorada con un codificador de visión compacta, ofrece una solución práctica para aplicaciones empresariales que requieren una comprensión multimodal bajo estrictas restricciones de latencia o hardware.
Al superar OCRBench V2 mientras mantiene una huella desplegable, Nemotron Nano VL se posiciona como un modelo viable para tareas como el control de calidad automatizado, el OCR inteligente y las tuberías de extracción de información.
Mira el Detalle técnico y Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.