Investigadores del MIT, Google DeepMind y Oxford revelan por qué los modelos de visión y lenguaje no comprenden la negación y proponen una solución innovadora
Los modelos de visión y lenguaje (VLM) desempeñan un papel crucial en tareas multimodales como la recuperación de imágenes, los subtítulos y el diagnóstico médico al alinear datos visuales y…