GPT-4O entiende el texto, pero ¿se ve claramente? Un estudio de evaluación comparativa de MFM en tareas de visión
Los modelos de fundaciones multimodales (MFM) como GPT-4O, Géminis y Claude han mostrado un rápido progreso recientemente, especialmente en demostraciones públicas. Si bien sus habilidades lingüísticas están bien estudiadas, su…