Kyutai Open Sources Moshi: un modelo de IA multimodal nativo en tiempo real que puede escuchar y hablar

En un anuncio sorprendente que resonó en el mundo de la tecnología, Kyutai presentó Moshiun revolucionario modelo de base multimodal nativo en tiempo real. Este modelo innovador refleja y supera algunas de las funcionalidades presentadas por GPT-4o de OpenAI en mayo.

Moshi está diseñado para comprender y expresar emociones, ofreciendo capacidades como hablar con diferentes acentos, incluido el francés. Puede escuchar y generar audio y habla mientras mantiene un flujo continuo de pensamientos textuales, como dice. Una de las características destacadas de Moshi es su capacidad para manejar dos transmisiones de audio simultáneamente, lo que le permite escuchar y hablar simultáneamente. Esta interacción en tiempo real se sustenta en un preentrenamiento conjunto en una mezcla de texto y audio, aprovechando los datos de texto sintético de Helium, un modelo de lenguaje de 7 mil millones de parámetros desarrollado por Kyutai.

El proceso de ajuste de Moshi implicó 100.000 conversaciones sintéticas de “estilo oral”, convertidas mediante tecnología Text-to-Speech (TTS). La voz del modelo se entrenó con datos sintéticos generados por un modelo TTS independiente, logrando una impresionante latencia de extremo a extremo de 200 milisegundos. Sorprendentemente, Kyutai también ha desarrollado una variante más pequeña de Moshi que puede ejecutarse en una MacBook o una GPU de tamaño de consumidor, lo que la hace accesible a una gama más amplia de usuarios.

Kyutai ha enfatizado la importancia del uso responsable de la IA al incorporar marcas de agua para detectar el audio generado por la IA, una función que actualmente está en desarrollo. La decisión de lanzar Moshi como un proyecto de código abierto destaca el compromiso de Kyutai con la transparencia y el desarrollo colaborativo dentro de la comunidad de IA.

En esencia, Moshi funciona con un modelo de lenguaje multimodal de 7 mil millones de parámetros que procesa la entrada y salida de voz. El modelo funciona con un sistema de E/S de dos canales, que genera tokens de texto y códecs de audio simultáneamente. El modelo de lenguaje de texto base, Helium 7B, se entrenó desde cero y luego se entrenó en conjunto con códecs de texto y audio. Basado en el modelo Mimi interno de Kyutai, el códec de voz cuenta con un factor de compresión de 300x, que captura información semántica y acústica.

El entrenamiento de Moshi implicó procesos rigurosos, en los que se ajustaron 100.000 transcripciones sumamente detalladas, anotadas con emoción y estilo. El motor de conversión de texto a voz, que admite 70 emociones y estilos diferentes, se afinó con 20 horas de audio grabado por una locutora autorizada llamada Alice. El modelo está diseñado para adaptarse y se puede ajustar con menos de 30 minutos de audio.

La implementación de Moshi demuestra su eficiencia. El modelo de demostración, alojado en las plataformas Scaleway y Hugging Face, puede manejar dos tamaños de lote con 24 GB de VRAM. Admite varios backends, incluidos CUDA, Metal y CPU, y se beneficia de las optimizaciones en el código de inferencia a través de Rust. Se prevé que el almacenamiento en caché de KV mejorado y el almacenamiento en caché de indicaciones mejoren aún más el rendimiento.

De cara al futuro, Kyutai tiene planes ambiciosos para Moshi. El equipo pretende publicar un informe técnico y versiones abiertas del modelo, incluida la base de código de inferencia, el modelo 7B, el códec de audio y la pila optimizada completa. Las iteraciones futuras, como Moshi 1.1, 1.2 y 2.0, perfeccionarán el modelo en función de los comentarios de los usuarios. El objetivo de la concesión de licencias de Moshi es ser lo más permisiva posible, fomentando la adopción generalizada y la innovación.

En conclusión, Moshi ejemplifica el potencial de los equipos pequeños y concentrados para lograr avances extraordinarios en la tecnología de IA. Este modelo abre nuevas vías para la asistencia en la investigación, el intercambio de ideas, el aprendizaje de idiomas y más, y demuestra el poder transformador de la IA cuando se implementa en el dispositivo con una flexibilidad incomparable. Como modelo de código abierto, invita a la colaboración y la innovación, lo que garantiza que los beneficios de esta tecnología revolucionaria sean accesibles para todos.

Revisar la Anuncio, Fundamentaly Chat de demostración. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Vienen el papel, el código y el modelo…

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🐝 Únase al boletín de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Kyutai Open Sources Moshi: un modelo de IA multimodal nativo en tiempo real que puede escuchar y hablar

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Parallax: una atención lineal local parametrizada que mantiene Softmax y agrega una rama de corrección de covarianza aprendida

Una implementación del kit de herramientas de gobernanza de agentes de Microsoft para el uso seguro de herramientas de agentes de IA con políticas, aprobaciones, registros de auditoría y controles de riesgos

StepFun lanza el paso 3.7 Flash: un modelo de lenguaje de visión MoE de 198 mil millones para agentes de codificación y flujos de trabajo de búsqueda

You missed

BOC Macau fortalece su papel como puente financiero de China después de seis premios ganados

easyJet podría tener problemas en España por obligar a los pasajeros a pagar el equipaje facturado en ambos tramos del viaje

¿Fue asesinada Marilyn Monroe? Dentro de las teorías de la conspiración

El polvo cósmico alrededor de estrellas jóvenes podría revelar cómo pesar los planetas recién nacidos