Mirage: razonamiento multimodal en VLMS sin renderizar imágenes
Si bien los VLM son fuertes para comprender tanto el texto como las imágenes, a menudo dependen únicamente del texto al razonar, limitando su capacidad para resolver tareas que requieren…