Kyutai lanza Moshivis: El primer modelo de habla en tiempo real de código abierto que puede hablar sobre imágenes

La inteligencia artificial ha hecho avances significativos en los últimos años, pero integrar la interacción del habla en tiempo real con el contenido visual sigue siendo un desafío complejo. Los sistemas tradicionales a menudo dependen de componentes separados para la detección de actividades de voz, reconocimiento de voz, diálogo textual y síntesis de texto a voz. Este enfoque segmentado puede introducir demoras y no capturar los matices de la conversación humana, como emociones o sonidos sin voz. Estas limitaciones son particularmente evidentes en las aplicaciones diseñadas para ayudar a las personas con discapacidad visual, donde las descripciones oportunas y precisas de las escenas visuales son esenciales.

Abordar estos desafíos, Kyutai ha introducido Moshivis, un modelo de discurso de visión de código abierto (VSM) que permite interacciones naturales en el habla en tiempo real sobre imágenes. Sobre la base de su trabajo anterior con Moshi, un modelo de base de texto de voz diseñado para el diálogo en tiempo real, Moshivis extiende estas capacidades para incluir entradas visuales. Esta mejora permite a los usuarios participar en conversaciones fluidas sobre contenido visual, marcando un avance notable en el desarrollo de la IA.

Técnicamente, Moshivis aumenta Moshi al integrar módulos de atención cruzada livianas que infunden información visual de un codificador visual existente en la corriente de token de voz de Moshi. Este diseño asegura que las habilidades de conversación originales de Moshi permanezcan intactas al introducir la capacidad de procesar y discutir las entradas visuales. Un mecanismo de activación dentro de los módulos de atención cruzada permite que el modelo se involucre selectivamente con los datos visuales, manteniendo la eficiencia y la capacidad de respuesta. En particular, Moshivis agrega aproximadamente 7 milisegundos de latencia por paso de inferencia en dispositivos de grado de consumo, como un Mac Mini con un chip M4 Pro, lo que resulta en un total de 55 milisegundos por paso de inferencia. Esta actuación se mantiene muy por debajo del umbral de 80 milisegundos para la latencia en tiempo real, asegurando interacciones suaves y naturales.

En aplicaciones prácticas, Moshivis demuestra su capacidad para proporcionar descripciones detalladas de escenas visuales a través del habla natural. Por ejemplo, cuando se presenta una imagen que representa estructuras de metales verdes rodeadas de árboles y un edificio con un exterior marrón claro, Moshivis articula:

“Veo dos estructuras de metal verde con una tapa de malla, y están rodeadas de grandes árboles. En el fondo, puedes ver un edificio con un exterior marrón claro y un techo negro, que parece estar hecho de piedra”.

Esta capacidad abre nuevas vías para aplicaciones, como proporcionar descripciones de audio para la accesibilidad con discapacidad visual, mejorar la accesibilidad y permitir interacciones más naturales con información visual. Al publicar Moshivis como un proyecto de código abierto, Kyutai invita a la comunidad de investigación y a los desarrolladores a explorar y expandir esta tecnología, fomentando la innovación en los modelos de voz de visión. La disponibilidad de los pesos del modelo, el código de inferencia y los puntos de referencia de voz visual respaldan aún más los esfuerzos de colaboración para refinar y diversificar las aplicaciones de Moshivis.

En conclusión, Moshivis representa un avance significativo en la IA, fusionando la comprensión visual con la interacción del habla en tiempo real. Su naturaleza de código abierto fomenta la adopción y el desarrollo generalizado, allanando el camino para interacciones más accesibles y naturales con la tecnología. A medida que AI continúa evolucionando, las innovaciones como Moshivis nos acercan a la integración perfecta de la comprensión multimodal, mejorando las experiencias de los usuarios en varios dominios.


Verificar el Detalle técnico y Pruébalo aquí. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.