TLDR: VISTA es un marco de múltiples agentes que mejora la generación de texto a video durante la inferencia, planifica indicaciones estructuradas como escenas, ejecuta un torneo por parejas para seleccionar al mejor candidato, utiliza jueces especializados en aspectos visuales, de audio y contexto, luego reescribe la indicación con un agente de estimulación de pensamiento profundo, el método muestra ganancias consistentes sobre líneas de base sólidas de optimización de indicaciones en configuraciones de escena única y de múltiples escenas, y los evaluadores humanos prefieren sus resultados.
¿Qué es VISTA?
VISTA significa Agente de mejora personal iterativo de vídeo. Es un bucle de múltiples agentes de caja negra que refina las indicaciones y regenera videos en el momento de la prueba. El sistema apunta a 3 aspectos conjuntamente: visual, auditivo y contextual. Sigue 4 pasos, planificación de indicaciones de video estructuradas, selección de torneos por parejas, críticas multidimensionales de múltiples agentes y un agente de estimulación del pensamiento profundo para una reescritura rápida.
El equipo de investigación evalúa VISTA en un punto de referencia de una sola escena y en un conjunto interno de múltiples escenas. Informa mejoras constantes y una tasa de victorias por pares de hasta el 60 por ciento frente a líneas de base de última generación en algunos entornos, y una preferencia humana del 66,4 por ciento sobre la línea de base más sólida.
Comprender el problema clave
Los modelos de texto a video como Veo 3 pueden producir video y audio de alta calidad, pero las salidas siguen siendo sensibles a las frases exactas, el cumplimiento de la física puede fallar y la alineación con los objetivos del usuario puede variar, lo que obliga a realizar pruebas y errores manuales. VISTA enmarca esto como un problema de optimización del tiempo de prueba. Busca una mejora unificada a través de señales visuales, señales de audio y alineación contextual.
¿Cómo funciona VISTA, paso a paso?
Paso 1: planificación de mensajes de vídeo estructurados
El mensaje del usuario se descompone en escenas cronometradas. Cada escena lleva 9 propiedades, duración, tipo de escena, personajes, acciones, diálogos, entorno visual, cámara, sonidos, estados de ánimo. Un LLM multimodal llena las propiedades faltantes e impone restricciones de realismo, relevancia y creatividad de forma predeterminada. El sistema también mantiene el mensaje de usuario original en el conjunto de candidatos para permitir modelos que no se beneficien de la descomposición.
Paso 2: selección de vídeos del torneo por parejas
El sistema toma muestras de varios vídeos y solicita pares. Un MLLM actúa como juez con torneos binarios e intercambio bidireccional para reducir el sesgo en el orden de los tokens. Los criterios predeterminados incluyen fidelidad visual, sentido común físico, alineación de texto y video, alineación de audio y video y participación. El método primero genera críticas de sondeo para respaldar el análisis, luego realiza una comparación por pares y aplica penalizaciones personalizables para fallas comunes de texto a video.
Paso 3: críticas multidimensionales y multiagentes
El video y el mensaje del campeón reciben críticas en 3 dimensiones: visual, de audio y de contexto. Cada dimensión utiliza una tríada, un juez normal, un juez adversario y un metajuez que consolida ambos lados. Las métricas incluyen fidelidad visual, movimientos y dinámica, consistencia temporal, enfoque de la cámara y seguridad visual para visual, fidelidad de audio, alineación de audio y video y seguridad de audio para audio, idoneidad situacional, coherencia semántica, alineación de texto y video, sentido común físico, participación y formato de video para el contexto. Las puntuaciones están en una escala del 1 al 10, lo que respalda el descubrimiento de errores específicos.
Paso 4: Agente que incita al pensamiento profundo
El módulo de razonamiento lee las metacríticas y ejecuta una introspección de 6 pasos, identifica métricas de puntuación baja, aclara los resultados esperados, verifica la suficiencia de las indicaciones, separa los límites del modelo de los problemas de las indicaciones, detecta conflictos o vaguedades, propone acciones de modificación y luego muestra indicaciones refinadas para el ciclo de próxima generación.
Entendiendo los resultados
Evaluación automática: el estudio de investigación informa tasas de victorias, empates y pérdidas en diez criterios utilizando un MLLM como juez, con comparaciones bidireccionales. VISTA logra una tasa de ganancia sobre la indicación directa que aumenta a lo largo de las iteraciones, alcanzando el 45,9 por ciento en una sola escena y el 46,3 por ciento en múltiples escenas en la iteración 5. También gana directamente contra cada línea de base con el mismo presupuesto de cómputo.
Estudios en humanos: los anotadores con experiencia en optimización de indicaciones prefieren VISTA en el 66,4 por ciento de las pruebas directas frente a la mejor línea de base en la iteración 5. Los expertos califican las trayectorias de optimización más alto para VISTA, y califican la calidad visual y la calidad de audio más alto que las indicaciones directas.
Costo y escalamiento: el promedio de tokens por iteración es de aproximadamente 0,7 millones en dos conjuntos de datos; los tokens de generación no están incluidos. La mayor parte del uso de tokens proviene de la selección y las críticas, que procesan los videos como entradas de contexto largas. La tasa de ganancias tiende a aumentar a medida que aumenta la cantidad de videos muestreados y tokens por iteración.
Ablaciones: eliminar la planificación rápida debilita la inicialización. Eliminar la selección de torneos desestabiliza las iteraciones posteriores. Usar solo un tipo de juez reduce el rendimiento. Eliminar el agente que incita al pensamiento profundo reduce las tasas de ganancias finales.
Evaluadores: el equipo de investigación repitió la evaluación con modelos de evaluación alternativos y observó mejoras iterativas similares, lo que respalda la solidez de la tendencia.
Conclusiones clave
VISTA es un bucle de múltiples agentes en tiempo de prueba que optimiza conjuntamente imágenes, audio y contexto para la generación de texto a video. Planifica indicaciones como escenas cronometradas con 9 atributos, duración, tipo de escena, personajes, acciones, diálogos, entorno visual, cámara, sonidos, estados de ánimo. Los videos candidatos se seleccionan mediante torneos por parejas utilizando un juez MLLM con intercambio bidireccional, y se califican según la fidelidad visual, el sentido común físico, la alineación del texto y el video, la alineación del audio y el video y la participación. Una tríada de jueces por dimensión, normal, adversaria y meta, produce de 1 a 10 puntuaciones que guían al agente promotor del pensamiento profundo a reescribir el mensaje e iterarlo. Los resultados muestran un 45,9 por ciento de victorias en una sola escena y un 46,3 por ciento en múltiples escenas en la iteración 5 sobre la indicación directa; los evaluadores humanos prefieren VISTA en el 66,4 por ciento de las pruebas; el costo promedio de token por iteración es de aproximadamente 0,7 millones.
VISTA es un paso práctico hacia la generación confiable de texto a video, trata la inferencia como un bucle de optimización y mantiene el generador como una caja negra. La planificación de indicaciones de vídeo estructurado es útil para los ingenieros noveles; los 9 atributos de escena brindan una lista de verificación concreta. La selección del torneo por parejas con un juez LLM multimodal y el intercambio bidireccional es una forma sensata de reducir el sesgo en el orden; los criterios apuntan a modos de falla reales, fidelidad visual, sentido común físico, alineación de texto y video, alineación de audio y video y participación. Las críticas multidimensionales separan lo visual, lo sonoro y lo contextual; los jueces normales, adversarios y meta exponen debilidades que los jueces individuales pasan por alto. El agente de indicación de pensamiento profundo convierte esos diagnósticos en ediciones de indicaciones específicas. El uso de Gemini 2.5 Flash y Veo 3 aclara la configuración de referencia; el estudio de Veo 2 es un límite inferior útil. Las tasas de éxito reportadas del 45,9 y 46,3 por ciento y la preferencia humana del 66,4 por ciento indican ganancias repetibles. El costo de 0,7 millones de tokens no es trivial, pero sí transparente y escalable.
Consulte la página del artículo y del proyecto. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.