Salesforce AI Research presenta BLIP-3-Video: un modelo de lenguaje multimodal para videos diseñado para capturar de manera eficiente información temporal en múltiples fotogramas
Los modelos visión-lenguaje (VLM) están ganando importancia en la inteligencia artificial por su capacidad para integrar datos visuales y textuales. Estos modelos desempeñan un papel crucial en campos como la…