Investigadores de UC Berkeley, UIUC y NYU desarrollaron un marco algorítmico que utiliza el aprendizaje por refuerzo (RL) para optimizar los modelos de visión y lenguaje (VLM)
Al utilizar el pensamiento lingüístico, los modelos de visión-lenguaje amplios (VLM, por sus siglas en inglés) han demostrado capacidades notables como agentes adaptables que pueden resolver una amplia gama de…