Metainvestigadores han presentado Perception Encoder Audiovisual, PEAV, como una nueva familia de codificadores para la comprensión conjunta de audio y vídeo. El modelo aprende representaciones alineadas de audio, video y texto en un único espacio de incrustación mediante entrenamiento contrastivo a gran escala en aproximadamente 100 millones de pares de audio y video con subtítulos de texto.
Del codificador de percepción a PEAV
Perception Encoder, PE, es la pila de visión central del proyecto Perception Models de Meta. Es una familia de codificadores para imágenes, video y audio que alcanza la última tecnología en muchos puntos de referencia de visión y audio utilizando una receta de preentrenamiento contrastivo unificado. El núcleo PE supera a SigLIP2 en tareas de imágenes y a InternVideo2 en tareas de vídeo. PE lang potencia el modelo de lenguaje de percepción para el razonamiento multimodal. PE espacial está optimizado para tareas de predicción densas, como la detección y la estimación de profundidad.
PEAV se basa en esta columna vertebral y la extiende a una alineación completa de texto de audio y video. En el repositorio de Modelos de percepción, PE audiovisual figura como la rama que integra audio, video, audio, video y texto en un único espacio de incrustación conjunto para la comprensión intermodal.
Arquitectura, Torres Separadas y Fusión
La arquitectura PEAV se compone de un codificador de cuadros, un codificador de video, un codificador de audio, un codificador de fusión de audio y video y un codificador de texto.
La ruta de vídeo utiliza el codificador de fotogramas PE existente en fotogramas RGB y luego aplica un codificador de vídeo temporal encima de las funciones a nivel de fotograma. La ruta de audio utiliza DAC VAE como códec para convertir formas de onda sin procesar en tokens de audio discretos a una velocidad de cuadros fija, aproximadamente una incorporación cada 40 milisegundos.
Estas torres alimentan un codificador de fusión de audio y vídeo que aprende una representación compartida para ambas transmisiones. El codificador de texto proyecta consultas de texto en varios espacios especializados. En la práctica, esto proporciona una única columna vertebral que se puede consultar de muchas maneras. Puede recuperar video a partir de texto, audio a partir de texto, audio a partir de video o recuperar descripciones de texto condicionadas a cualquier combinación de modalidades sin volver a capacitar a los jefes de tareas específicas.
Motor de datos, subtítulos audiovisuales sintéticos a escala
El equipo de investigación propuso un motor de datos audiovisuales de dos etapas que genera subtítulos sintéticos de alta calidad para clips sin etiquetar. El equipo describe un proceso que primero utiliza varios modelos de subtítulos de audio débiles, sus puntuaciones de confianza y subtítulos de vídeo separados como entrada a un modelo de lenguaje grande. Este LLM produce tres tipos de subtítulos por clip, uno para contenido de audio, uno para contenido visual y otro para contenido audiovisual conjunto. Se entrena un modelo PE AV inicial sobre esta supervisión sintética.
En la segunda etapa, este PEAV inicial se combina con un decodificador del modelo de lenguaje de percepción. Juntos perfeccionan los subtítulos para explotar mejor las correspondencias audiovisuales. El motor de dos etapas produce subtítulos confiables para aproximadamente 100 millones de pares de audio y video y utiliza alrededor de 92 millones de clips únicos para el preentrenamiento de la etapa 1 y 32 millones de clips únicos adicionales para el ajuste fino de la etapa 2.
En comparación con trabajos anteriores que a menudo se centran en el habla o dominios de sonido limitados, este corpus está diseñado para equilibrar el habla, los sonidos generales, la música y diversos dominios de video, lo cual es importante para la recuperación y comprensión audiovisual general.
Objetivo contrastivo en diez pares de modalidades
PEAV utiliza una pérdida contrastiva basada en sigmoide en audio, video, texto y representaciones fusionadas. El equipo de investigación explica que el modelo utiliza ocho pares de pérdidas contrastivas durante el preentrenamiento. Estos cubren combinaciones como texto de audio, texto de video, texto de audio y video y pares relacionados con la fusión. Durante el ajuste fino, se agregan dos pares adicionales, lo que eleva el total a diez pares de pérdidas entre las diferentes modalidades y tipos de subtítulos.
Este objetivo es similar en forma a los objetivos contrastivos utilizados en codificadores de lenguaje de visión recientes, pero generalizado al entrenamiento trimodal de texto de audio y video. Al alinear todas estas vistas en un espacio, el mismo codificador puede admitir tareas de clasificación, recuperación y correspondencia con simples similitudes de productos escalares.
Rendimiento en audio, voz, música y vídeo
En los puntos de referencia, PEAV apunta a la recuperación y clasificación cero para múltiples dominios. PE AV logra un rendimiento de vanguardia en varios puntos de referencia de audio y video en comparación con modelos recientes de texto de audio y texto de audio y video de trabajos como CLAP, Audio Flamingo, ImageBind y LanguageBind.
Los beneficios concretos incluyen:
En AudioCaps, la recuperación de texto a audio mejora de 35,4 R en 1 a 45,8 R en 1. En VGGSound, la precisión de la clasificación a nivel de clip mejora de 36,0 a 47,1. Para la recuperación de voz en tareas de estilo VCTK, PE AV alcanza una precisión de 85,6, mientras que los modelos anteriores están cerca de 0. En ActivityNet, la recuperación de texto a video mejora de 60,4 R en 1 a 66,5 R en 1. En Kinetics 400, la clasificación de video de disparo cero mejora de 76,9 a 78,9, superando a los modelos de 2 a 4 veces más grandes.
PEA-Frame, alineación de texto de audio a nivel de cuadro
Junto con PEAV, Meta lanza Perception Encoder Audio Frame, PEA-Frame, para la localización de eventos de sonido. PE A Frame es un modelo de incrustación de texto de audio que genera una incrustación de audio por cuadro de 40 milisegundos y una única incrustación de texto por consulta. El modelo puede devolver intervalos temporales que marcan en qué parte del audio ocurre cada evento descrito.
PEA-Frame utiliza el aprendizaje contrastivo a nivel de fotograma para alinear los fotogramas de audio con el texto. Esto permite la localización precisa de eventos como altavoces, instrumentos o sonidos transitorios específicos en largas secuencias de audio.
Papel en los modelos de percepción y el ecosistema de audio SAM
PEAV y PEA-Frame se encuentran dentro de la pila más amplia de modelos de percepción, que combina codificadores PE con el modelo de lenguaje de percepción para generación y razonamiento multimodal.
PEAV es también el motor de percepción central detrás del nuevo modelo SAM Audio de Meta y su evaluador Judge. SAM Audio utiliza incrustaciones de PEAV para conectar indicaciones visuales y de texto a fuentes de sonido en mezclas complejas y para calificar la calidad de pistas de audio separadas.
Conclusiones clave
PEAV es un codificador unificado para audio, video y texto, entrenado con aprendizaje contrastivo en más de 100 millones de videos e integra audio, video, audio, video y texto en un único espacio conjunto para la recuperación y comprensión intermodal. La arquitectura utiliza torres de audio y video separadas, con codificación visual basada en PE y tokenización de audio DAC VAE, seguidas de un codificador de fusión audiovisual y encabezados de texto especializados alineados con diferentes pares de modalidades. Un motor de datos de 2 etapas genera subtítulos audiovisuales, visuales y de audio sintéticos utilizando subtítulos más débiles más un LLM en la etapa 1 y PEAV más un modelo de lenguaje de percepción en la etapa 2, lo que permite una supervisión multimodal a gran escala sin etiquetas manuales. PEAV establece un nuevo estado del arte en una amplia gama de puntos de referencia de audio y video a través de un objetivo contrastivo sigmoideo sobre múltiples pares de modalidades, con seis puntos de control públicos desde variantes pequeñas de 16 fotogramas hasta variantes grandes de todos los fotogramas, donde la recuperación promedio mejora de aproximadamente 45 a 51,6. PEAV, junto con la variante PEA-Frame a nivel de cuadro, forma la columna vertebral de percepción del sistema SAM Audio de Meta, proporcionando las incrustaciones utilizadas para la separación de audio basada en indicaciones y la localización detallada de eventos de sonido en el habla, la música y los sonidos generales.
Consulte los pesos de papel, repositorio y modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.