Liquid AI liberado LFM2-Audio-1.5B: un modelo de base de audio de extremo a extremo con latencia de respuesta de ms bajo-100

Liquid AI ha lanzado LFM2-Audio-1.5b, un modelo de base de audio-lenguaje compacto que comprende y genera voz y texto a través de una sola pila de extremo a extremo. Se posiciona para asistentes de baja latencia en tiempo real en dispositivos con recursos limitados, extendiendo la familia LFM2 al audio mientras conserva una pequeña huella.

https://www.liquid.ai/blog/lfm2-audio-an-end-to-end-audio-foundation-model

Pero, ¿qué es realmente nuevo? una columna vertebral unificada con E/S de audio desenredada

LFM2-Audio extiende la columna vertebral del lenguaje LFM2 1.2B-Parameter para tratar el audio y el texto como tokens de secuencia de primera clase. De manera crucial, el modelo desangra las representaciones de audio: las entradas son incrustaciones continuas proyectadas directamente a partir de fragmentos de forma de onda sin procesar (~ 80 ms), mientras que las salidas son códigos de audio discretos. Esto evita los artefactos de discretización en la ruta de entrada al tiempo que mantiene la capacitación y la generación autorregresiva para ambas modalidades en la ruta de salida.

En el lado de la implementación, el punto de control lanzado usa:

🚨 [Recommended Read] VIPE (Video Pose Engine): una herramienta de anotación de video 3D potente y versátil para AI espacial

Backbone: LFM2 (Hybrid Conv + Atention), 1.2B Params (solo LM) Codificador de audio: FastConformer (~ 115m, Canary-180m-Flash) Audio Decoder: RQ-Transformer Predicción de Tokens MIMI Codec discretos (8 libros de códigos) Contexto: 32,768 tokens; Vocab: 65,536 (texto) / 2049 × 8 (audio) Precisión: BFLOAT16; Licencia: LFM Open License V1.0; Idiomas: inglés

https://www.liquid.ai/blog/lfm2-audio-an-end-to-end-audio-foundation-model

Modos de dos generaciones para agentes en tiempo real

Generación intercalada para el chat en vivo de voz a voz donde el modelo alterna el texto y los tokens de audio para minimizar la latencia percibida. Generación secuencial para ASR/TTS (modalidades de conmutación giratorias).

Liquid AI proporciona un paquete Python (Audio Liquid-Audio) y una demostración de Gradio para reproducir estos comportamientos.

Latencia: <100 ms al primer audio

El equipo de Liquid AI informa una latencia de extremo a extremo por debajo de 100 ms de una consulta de audio de 4 segundos a la primera respuesta audible, un proxy por la capacidad de respuesta percibida en el uso interactivo, que lo indica es más rápido que los modelos más pequeños que los parámetros 1.5B bajo su configuración.

Puntos de referencia: resultados de bancos de voz y asr

En VoiceBench, un conjunto de nueve evaluaciones asistentes de audio, Liquid informa una puntuación general de 56.78 para LFM2-Audio-1.5B, con números por tarea revelados en la lista del blog (por ejemplo, Alpacaeval 3.71, Commoneval 3.49, WILDVOICE 3.17). El equipo de IA líquido contrasta este resultado con modelos más grandes como Qwen2.5-OMNI-3B y Moshi-7b en la misma tabla. (VoiceBench es un punto de referencia externo introducido a fines de 2024 para asistentes de voz basados en LLM)

La tarjeta modelo en Hugging Face proporciona una tabla de bancos de voz adicional (con valores estrechamente relacionados, pero no idénticos, por tarea) e incluye ASR clásicos de ASR, donde LFM2-Audio coincide o mejora en Whisper-Large-V3-Turbo para algunos conjuntos de datos a pesar de ser un modelo generalista del habla-texto. Por ejemplo (más bajo es mejor): AMI 15.36 vs. 16.13 (Whisper-Large-V3-Turbo), Librispeech-Clean 2.03 vs. 2.10.

https://huggingface.co/liquidai/lfm2-audio-1.5b

Muy bien, pero ¿por qué realmente importa en las tendencias de voz de voz?

La mayoría de las pilas “Omni” se unen ASR → LLM → TTS, lo que agrega latencia e interfaces frágiles. El diseño de una sola backbone de LFM2-Audio con incrustaciones de entrada continuas y códigos de salida discretos reduce la lógica del pegamento y permite la decodificación entrelazada para la emisión de audio temprano. Para los desarrolladores, esto se traduce en tuberías más simples y tiempos de respuesta percibidos más rápidos, al tiempo que admite ASR, TTS, clasificación y agentes conversacionales de un modelo. Liquid AI proporciona código, puntos de entrada de demostración y distribución a través de la cara abrazada.

Consulte la página de GitHub, abrazando la tarjeta Model Face y los detalles técnicos. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín. ¡Esperar! ¿Estás en Telegram? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial

Liquid AI liberado LFM2-Audio-1.5B: un modelo de base de audio de extremo a extremo con latencia de respuesta de ms bajo-100

ByEquipo de 7 minutos

Pero, ¿qué es realmente nuevo? una columna vertebral unificada con E/S de audio desenredada

Modos de dos generaciones para agentes en tiempo real

Latencia: <100 ms al primer audio

Puntos de referencia: resultados de bancos de voz y asr

Muy bien, pero ¿por qué realmente importa en las tendencias de voz de voz?

By Equipo de 7 minutos

Related Post

VibeThinker-3B: un modelo de razonamiento denso 3B construido sobre Qwen2.5-Coder-3B con el canal de postentrenamiento de espectro a señal

NVIDIA AI presenta SpatialClaw: un agente sin capacitación que trata el código como la interfaz de acción para el razonamiento espacial

Una mejor manera de modelar el comportamiento de las aleaciones metálicas | Noticias del MIT

You missed

¿Más suerte esta vez? El icónico albergue de Mallorca tiene nuevo propietario

Ryan Lochte se comprometió con su novia Molly Gillihan un año después del divorcio

VibeThinker-3B: un modelo de razonamiento denso 3B construido sobre Qwen2.5-Coder-3B con el canal de postentrenamiento de espectro a señal

Priya Kansara y Josef Davies de ‘Star City’ hablan sobre cómo anclar a sus personajes y agregar toques de vestuario (entrevista)