MaVEn: un marco eficaz de codificación visual híbrida de granularidad múltiple para modelos de lenguaje multimodales de gran tamaño (MLLM)
El enfoque principal de los modelos multimodales de lenguaje grande (MLLM) existentes es la interpretación de imágenes individuales, lo que restringe su capacidad para abordar tareas que involucran muchas imágenes.…