Meta ha lanzado SAM Audio, un modelo de separación de audio impulsado por indicaciones que apunta a un cuello de botella de edición común, aislando un sonido de una mezcla del mundo real sin crear un modelo personalizado por clase de sonido. Meta lanzó 3 tamaños principales, sam-audio-small, sam-audio-base y sam-audio-large. El modelo está disponible para descargar y probar en Segment Anything Playground.
Arquitectura
SAM Audio utiliza codificadores separados para cada señal de acondicionamiento, un codificador de audio para la mezcla, un codificador de texto para la descripción en lenguaje natural, un codificador de intervalo para anclajes de tiempo y un codificador visual que consume un mensaje visual derivado del video más una máscara de objeto. Los flujos codificados se concatenan en características alineadas en el tiempo, luego se procesan mediante un transformador de difusión que aplica atención propia sobre la representación alineada en el tiempo y atención cruzada a la característica textual, luego un decodificador DACVAE reconstruye las formas de onda y emite 2 salidas, audio de destino y audio residual.
¿Qué hace SAM Audio y qué significa “segmento” aquí?
SAM Audio toma una grabación de entrada que contiene múltiples fuentes superpuestas, por ejemplo voz más tráfico más música, y separa una fuente de destino según un mensaje. En la API de inferencia pública, el modelo produce 2 resultados, result.target y result.residual. El equipo de investigación describe el objetivo como el sonido aislado y el residual como todo lo demás.
Ese objetivo más la interfaz residual se asigna directamente a las operaciones del editor. Si desea eliminar el ladrido de un perro en una pista de podcast, puede tratar el ladrido como el objetivo y luego restarlo manteniendo solo el residuo. Si desea extraer una parte de guitarra de un clip de concierto, mantenga la forma de onda de destino. Meta utiliza este tipo exacto de ejemplos para explicar lo que el modelo debe permitir.
Los 3 tipos de mensajes que Meta envía
Meta posiciona a SAM Audio como un modelo unificado único que admite 3 tipos de mensajes y dice que estos mensajes se pueden usar solos o combinados.
Indicaciones de texto: usted describe el sonido en lenguaje natural, por ejemplo, “ladrido de perro” o “voz que canta”, y el modelo separa ese sonido de la mezcla. Meta enumera las indicaciones de texto como uno de los modos de interacción principales, y el repositorio de código abierto incluye un ejemplo de principio a fin utilizando SAMAudioProcessor y model.separate. Indicaciones visuales: haces clic en la persona u objeto en un video y le pides al modelo que aísle el audio asociado con ese objeto visual. El meta equipo describe las indicaciones visuales como la selección del objeto que suena en el video. En la ruta del código publicado, las indicaciones visuales se implementan pasando cuadros de video más máscaras al procesador a través de masked_videos. Indicación de amplitud: las llamadas del metaequipo se extienden, lo que genera una primicia en la industria. Usted marca los segmentos de tiempo donde ocurre el sonido objetivo y luego el modelo usa esos lapsos para guiar la separación. Esto es importante en casos ambiguos, por ejemplo, cuando el mismo instrumento aparece en varios pasajes o cuando un sonido está presente sólo brevemente y desea evitar que el modelo se separe demasiado.
Resultados
El equipo Meta posiciona a SAM Audio como una empresa que logra un rendimiento de vanguardia en diversos escenarios del mundo real y lo enmarca como una alternativa unificada a las herramientas de audio de un solo propósito. El equipo publica una tabla de evaluación subjetiva en todas las categorías: General, SFX, Habla, Orador, Música, Instr (salvaje), Instr (pro), con puntuaciones generales de 3,62 para sam audio pequeño, 3,28 para sam audio base y 3,50 para sam audio grande, y puntuaciones de Instr (pro) que alcanzan 4,49 para sam audio grande.
Conclusiones clave
SAM Audio es un modelo de separación de audio unificado que segmenta el sonido de mezclas complejas mediante indicaciones de texto, indicaciones visuales y indicaciones de intervalo de tiempo. La API principal produce dos formas de onda por solicitud, objetivo para el sonido aislado y residual para todo lo demás, lo que se asigna claramente a operaciones de edición comunes como eliminar ruido, extraer raíz o mantener el ambiente. Meta lanzó múltiples puntos de control y variantes, incluidos sam-audio-small, sam-audio-base, sam-audio-large, además de variantes de televisión que, según el repositorio, funcionan mejor para indicaciones visuales; el repositorio también publica una tabla de evaluación subjetiva por categoría. El lanzamiento incluye herramientas que van más allá de la inferencia. Meta proporciona un modelo de juez de audio sam que califica los resultados de separación con respecto a una descripción de texto con calidad, recuperación, precisión y fidelidad generales.
Consulte los detalles técnicos y la página de GitHub. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.