Screenshot 2024 09 15 At 12.12.20 Pm.png

Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) han surgido como potentes solucionadores de tareas de propósito general, capaces de ayudar a las personas en varios aspectos de la vida diaria a través de interacciones conversacionales. Sin embargo, la dependencia predominante de las interacciones basadas en texto ha limitado significativamente su aplicación en escenarios donde la entrada y salida de texto no son óptimas. Si bien los avances recientes, como GPT4o, han introducido capacidades de interacción de voz con una latencia extremadamente baja, mejorando la experiencia del usuario, la comunidad de código abierto aún necesita una exploración exhaustiva en la construcción de modelos de interacción de voz basados ​​en LLM. El desafío urgente que los investigadores se esfuerzan por resolver es cómo lograr una interacción de voz de baja latencia y alta calidad con LLM, expandiendo su accesibilidad y aplicabilidad en diversos escenarios de uso.

Se han intentado varios enfoques para permitir la interacción del habla con los LLM, cada uno con limitaciones. El método más simple implica un sistema en cascada que utiliza modelos de reconocimiento automático de voz (ASR) y de conversión de texto a voz (TTS). Sin embargo, este enfoque secuencial da como resultado una latencia más alta debido al procesamiento paso a paso del texto transcrito, la respuesta de texto y la respuesta de voz. También se han propuesto modelos multimodales de voz-lenguaje, que discretizan el habla en tokens y amplían los vocabularios de LLM para admitir la entrada y salida de voz. Si bien estos modelos permiten teóricamente la generación directa de voz a voz con baja latencia, la implementación práctica a menudo implica la generación de texto intermedio para mantener una mayor calidad, sacrificando algo de velocidad de respuesta. Otros intentos incluyen el entrenamiento de modelos de lenguaje en tokens semánticos o acústicos, el entrenamiento conjunto de tokens de voz y texto, y la adición de codificadores de voz a los LLM. Sin embargo, estos métodos a menudo requieren datos sustanciales y recursos computacionales o se centran únicamente en la comprensión del habla sin capacidades de generación.

Investigadores de la Universidad de la Academia de Ciencias de China presentaron LLaMA-Omniuna arquitectura de modelo innovadora, que se ha propuesto para superar el desafío de lograr una interacción de voz de baja latencia y alta calidad con LLM. Este enfoque innovador integra un codificador de voz, un adaptador de voz, LLM y un decodificador de voz en tiempo real para permitir una comunicación de voz a voz sin interrupciones. El modelo procesa la entrada de voz directamente a través del codificador y el adaptador antes de introducirla en el LLM, evitando la necesidad de una transcripción de texto intermedia. Un transformador de transmisión no autorregresivo actúa como decodificador de voz, utilizando una clasificación temporal conexionista para predecir unidades discretas correspondientes a la respuesta de voz. Esta arquitectura permite la generación simultánea de salidas de texto y voz, lo que reduce significativamente la latencia de la respuesta. Para respaldar el desarrollo y la evaluación de este modelo, los investigadores crearon el conjunto de datos InstructS2S-200K, diseñado específicamente para escenarios de interacción de voz.

La arquitectura de LLaMA-Omni consta de cuatro componentes principales: a codificador de voza adaptador de vozun Máster en Derechoy un decodificador de vozEl codificador de voz, basado en Whisper-large-v3, extrae representaciones significativas de la entrada de voz del usuario. Luego, el adaptador de voz procesa estas representaciones y las asigna al espacio de incrustación del LLM mediante un muestreo descendente y un perceptrón de dos capas. El LLM, basado en Llama-3.1-8B-Instruct, genera respuestas de texto directamente a partir de la instrucción de voz. El decodificador de voz, un transformador de transmisión no autorregresivo, toma los estados ocultos de salida del LLM y utiliza una clasificación temporal conexionista (CTC) para predecir unidades discretas correspondientes a la respuesta de voz.

El modelo emplea una estrategia de entrenamiento en dos etapas. En la primera etapa, aprende a generar respuestas de texto a partir de instrucciones de voz. La segunda etapa se centra en la generación de respuestas de voz, y solo se entrena el decodificador de voz. Durante la inferencia, LLaMA-Omni genera simultáneamente respuestas de texto y de voz. A medida que LLaMA-Omni produce texto, el decodificador de voz genera unidades discretas correspondientes, que luego se convierten en formas de onda de voz en tiempo real. Este enfoque permite una interacción de voz con una latencia extremadamente baja, ya que los usuarios pueden escuchar las respuestas antes de que se genere el texto completo.

El conjunto de datos InstructS2S-200K se creó para entrenar a LLaMA-Omni para la interacción por voz. Consta de 200 000 tripletes de instrucciones de voz, respuestas de texto y respuestas de voz. El proceso de construcción implicó reescribir las instrucciones de texto para el habla utilizando Llama-3-70B-Instruct, generar respuestas concisas adecuadas para el habla y sintetizar el habla utilizando CosyVoice-300M-SFT para las instrucciones y VITS para las respuestas. El conjunto de datos combina 50 000 entradas de Alpaca y 150 000 de UltraChat, que cubren diversos temas. Este conjunto de datos especializado proporciona una base sólida para entrenar a LLaMA-Omni en tareas basadas en el habla, lo que garantiza interacciones naturales y eficientes.

LLaMA-Omni supera a los modelos anteriores en tareas de interacción de voz, como lo demuestran los resultados del punto de referencia InstructS2S-Eval. Se destaca tanto en contenido como en estilo para la instrucción de voz a texto y de voz a voz, logrando una mejor alineación entre las respuestas de voz y texto. El modelo ofrece un equilibrio entre la calidad del habla y la latencia de la respuesta, con una latencia de tan solo 226 ms. La generación simultánea de texto y voz de LLaMA-Omni da como resultado tiempos de decodificación significativamente más rápidos en comparación con otros modelos. Los estudios de casos muestran que LLaMA-Omni proporciona respuestas más concisas, detalladas y útiles adecuadas para escenarios de interacción de voz, superando a los modelos anteriores en este contexto.

LLaMA-Omni, una arquitectura de modelo innovadora, se ha desarrollado para permitir una interacción de voz de alta calidad y baja latencia con los LLM. Basado en el modelo Llama-3.1-8B-Instruct, LLaMA-Omni incorpora un codificador de voz para la comprensión y un decodificador de voz en tiempo real para la generación simultánea de texto y respuestas de voz. La alineación del modelo con los escenarios de interacción de voz se logró mediante la creación de InstructionS2S-200K, un conjunto de datos que contiene 200.000 instrucciones y respuestas de voz. Los resultados experimentales demuestran el rendimiento superior de LLaMA-Omni tanto en contenido como en estilo en comparación con los modelos de voz-lenguaje existentes, con una latencia de respuesta notablemente baja de 226 ms. El eficiente proceso de entrenamiento del modelo, que requiere menos de 3 días en 4 GPU, facilita el desarrollo rápido de modelos de interacción de voz basados ​​en LLM de vanguardia.


Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.