Liquid AI ha lanzado LFM2-Audio-1.5b, un modelo de base de audio-lenguaje compacto que comprende y genera voz y texto a través de una sola pila de extremo a extremo. Se posiciona para asistentes de baja latencia en tiempo real en dispositivos con recursos limitados, extendiendo la familia LFM2 al audio mientras conserva una pequeña huella.
Pero, ¿qué es realmente nuevo? una columna vertebral unificada con E/S de audio desenredada
LFM2-Audio extiende la columna vertebral del lenguaje LFM2 1.2B-Parameter para tratar el audio y el texto como tokens de secuencia de primera clase. De manera crucial, el modelo desangra las representaciones de audio: las entradas son incrustaciones continuas proyectadas directamente a partir de fragmentos de forma de onda sin procesar (~ 80 ms), mientras que las salidas son códigos de audio discretos. Esto evita los artefactos de discretización en la ruta de entrada al tiempo que mantiene la capacitación y la generación autorregresiva para ambas modalidades en la ruta de salida.
En el lado de la implementación, el punto de control lanzado usa:
🚨 [Recommended Read] VIPE (Video Pose Engine): una herramienta de anotación de video 3D potente y versátil para AI espacial
Backbone: LFM2 (Hybrid Conv + Atention), 1.2B Params (solo LM) Codificador de audio: FastConformer (~ 115m, Canary-180m-Flash) Audio Decoder: RQ-Transformer Predicción de Tokens MIMI Codec discretos (8 libros de códigos) Contexto: 32,768 tokens; Vocab: 65,536 (texto) / 2049 × 8 (audio) Precisión: BFLOAT16; Licencia: LFM Open License V1.0; Idiomas: inglés
Modos de dos generaciones para agentes en tiempo real
Generación intercalada para el chat en vivo de voz a voz donde el modelo alterna el texto y los tokens de audio para minimizar la latencia percibida. Generación secuencial para ASR/TTS (modalidades de conmutación giratorias).
Liquid AI proporciona un paquete Python (Audio Liquid-Audio) y una demostración de Gradio para reproducir estos comportamientos.
Latencia: <100 ms al primer audio
El equipo de Liquid AI informa una latencia de extremo a extremo por debajo de 100 ms de una consulta de audio de 4 segundos a la primera respuesta audible, un proxy por la capacidad de respuesta percibida en el uso interactivo, que lo indica es más rápido que los modelos más pequeños que los parámetros 1.5B bajo su configuración.
Puntos de referencia: resultados de bancos de voz y asr
En VoiceBench, un conjunto de nueve evaluaciones asistentes de audio, Liquid informa una puntuación general de 56.78 para LFM2-Audio-1.5B, con números por tarea revelados en la lista del blog (por ejemplo, Alpacaeval 3.71, Commoneval 3.49, WILDVOICE 3.17). El equipo de IA líquido contrasta este resultado con modelos más grandes como Qwen2.5-OMNI-3B y Moshi-7b en la misma tabla. (VoiceBench es un punto de referencia externo introducido a fines de 2024 para asistentes de voz basados en LLM)
La tarjeta modelo en Hugging Face proporciona una tabla de bancos de voz adicional (con valores estrechamente relacionados, pero no idénticos, por tarea) e incluye ASR clásicos de ASR, donde LFM2-Audio coincide o mejora en Whisper-Large-V3-Turbo para algunos conjuntos de datos a pesar de ser un modelo generalista del habla-texto. Por ejemplo (más bajo es mejor): AMI 15.36 vs. 16.13 (Whisper-Large-V3-Turbo), Librispeech-Clean 2.03 vs. 2.10.
Muy bien, pero ¿por qué realmente importa en las tendencias de voz de voz?
La mayoría de las pilas “Omni” se unen ASR → LLM → TTS, lo que agrega latencia e interfaces frágiles. El diseño de una sola backbone de LFM2-Audio con incrustaciones de entrada continuas y códigos de salida discretos reduce la lógica del pegamento y permite la decodificación entrelazada para la emisión de audio temprano. Para los desarrolladores, esto se traduce en tuberías más simples y tiempos de respuesta percibidos más rápidos, al tiempo que admite ASR, TTS, clasificación y agentes conversacionales de un modelo. Liquid AI proporciona código, puntos de entrada de demostración y distribución a través de la cara abrazada.
Consulte la página de GitHub, abrazando la tarjeta Model Face y los detalles técnicos. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín. ¡Esperar! ¿Estás en Telegram? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.
🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial