LongCat-Flash-Omni: un modelo omnimodal SOTA de código abierto con parámetros 560B con 27B activados, excelente en interacción audiovisual en tiempo real

¿Cómo se diseña un modelo único que pueda escuchar, ver, leer y responder en tiempo real a través de texto, imágenes, video y audio sin perder eficiencia? El equipo LongCat de Meituan ha lanzado LongCat Flash Omni, un modelo omnimodal de código abierto con 560 mil millones de parámetros y alrededor de 27 mil millones activos por token, construido sobre el diseño de Mezcla de Expertos conectado con acceso directo que introdujo LongCat Flash. El modelo extiende la columna vertebral del texto a visión, video y audio, y mantiene un contexto de 128K para poder ejecutar largas conversaciones y comprender el nivel de documentos en una sola pila.

https://github.com/meituan-longcat/LongCat-Flash-Omni?tab=readme-ov-file

Arquitectura y adjuntos modales

LongCat Flash Omni mantiene el modelo de lenguaje sin cambios y luego agrega módulos de percepción. Un codificador LongCat ViT procesa tanto imágenes como fotogramas de vídeo, por lo que no existe una torre de vídeo independiente. Un codificador de audio junto con el códec de audio LongCat convierte la voz en tokens discretos, luego el decodificador puede generar voz desde el mismo flujo LLM, lo que permite la interacción audiovisual en tiempo real.

Streaming y entrelazado de funciones

El equipo de investigación describe el intercalado de características audiovisuales por fragmentos, donde las características de audio, las características de video y las marcas de tiempo se empaquetan en segmentos de 1 segundo. El vídeo se muestrea a 2 fotogramas por segundo de forma predeterminada, luego la velocidad se ajusta según la duración del vídeo, el informe no vincula la regla de muestreo a las fases de habla del usuario o modelo, por lo que la descripción correcta es muestreo condicionado por la duración. Esto mantiene la latencia baja y aún proporciona contexto espacial para tareas de control de calidad de GUI, OCR y video.

Plan de estudios de Texto a Omni

La formación sigue un plan de estudios por etapas. El equipo de investigación primero entrena la columna vertebral de texto LongCat Flash, que activa de 18,6 mil millones a 31,3 mil millones de parámetros por token, un promedio de 27 mil millones, luego aplica un preentrenamiento continuo de voz de texto, luego un preentrenamiento continuo multimodal con imagen y video, luego extensión de contexto a 128 K, luego alineación del codificador de audio.

Diseño de Sistemas, Modalidad Paralelismo Desacoplado

Debido a que los codificadores y el LLM tienen diferentes patrones de cálculo, Meituan utiliza paralelismo desacoplado por modalidad. Los codificadores de visión y audio se ejecutan con fragmentación híbrida y recálculo de activación, el LLM se ejecuta con canalización, contexto y paralelismo experto, y ModalityBridge alinea incrustaciones y gradientes. El equipo de investigación informa que el ajuste fino supervisado multimodal mantiene más del 90 por ciento del rendimiento del entrenamiento de solo texto, que es el principal resultado del sistema en esta versión.

https://github.com/meituan-longcat/LongCat-Flash-Omni?tab=readme-ov-file

Puntos de referencia y posicionamiento

LongCat Flash Omni alcanza 61,4 en OmniBench, esto es más alto que Qwen 3 Omni Instruct con 58,5 y Qwen 2.5 Omni con 55,0, pero menor que Gemini 2.5 Pro con 66,8. En VideoMME obtiene una puntuación de 78,2, cercana a GPT 4o y Gemini 2.5 Flash, y en VoiceBench alcanza 88,7, ligeramente superior a GPT 4o Audio en la misma tabla.

Conclusiones clave

LongCat Flash Omni es un modelo omnimodal de código abierto construido sobre la columna vertebral de 560B MoE de Meituan, activa alrededor de 27B de parámetros por token a través de un acceso directo MoE conectado con cero expertos en computación, por lo que mantiene una gran capacidad pero una computación amigable con la inferencia. El modelo adjunta codificación de video de visión unificada y una ruta de transmisión de audio al LongCat Flash LLM existente, utilizando un muestreo de video predeterminado de 2 fps con ajuste de duración condicionado, y empaqueta características audiovisuales en fragmentos de 1 segundo para decodificación sincronizada, que es lo que permite cualquier interacción en tiempo real. LongCat Flash Omni obtiene una puntuación de 61,4 en OmniBench, por encima de Qwen 3 Omni Instruct con 58,5, pero por debajo de Gemini 2.5 Pro con 66,8. Meituan utiliza paralelismo desacoplado de modalidad, codificadores de visión y audio que se ejecutan con fragmentación híbrida, el LLM se ejecuta con canalización, contexto y paralelismo experto, y reporta más del 90 por ciento del rendimiento de solo texto para SFT multimodal, que es la principal contribución de los sistemas del lanzamiento.

Este comunicado muestra que Meituan está tratando de hacer que la interacción omnimodal sea práctica, no experimental. Mantiene activada la mezcla de expertos conectada al acceso directo 560B con 27B, por lo que la columna vertebral del idioma sigue siendo compatible con versiones anteriores de LongCat. Añade percepción audiovisual en streaming con muestreo de vídeo predeterminado de 2 fps y ajuste condicionado de la duración, por lo que la latencia se mantiene baja sin perder la conexión espacial. Informa más del 90 por ciento de rendimiento de solo texto en ajuste fino supervisado multimodal a través del paralelismo desacoplado de modalidad.

Consulte Papel, Pesos de modelos y GitHub Repo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.