InternLM-XComposer2.5-OmniLive: un sistema integral de inteligencia artificial multimodal para interacciones de transmisión de video y audio a largo plazo

Los sistemas de IA están avanzando hacia la emulación de la cognición humana al permitir interacciones en tiempo real con entornos dinámicos. Los investigadores que trabajan en IA tienen como objetivo desarrollar sistemas que integren perfectamente datos multimodales como audio, vídeo y entradas de texto. Estos pueden tener aplicaciones en asistentes virtuales, entornos adaptativos y análisis continuo en tiempo real imitando la percepción, el razonamiento y la memoria humanos. Los desarrollos recientes en modelos de lenguajes grandes multimodales (MLLM) han dado lugar a avances significativos en la comprensión del mundo abierto y el procesamiento en tiempo real. Sin embargo, aún es necesario resolver desafíos en el desarrollo de sistemas capaces de percibir, razonar y memorizar simultáneamente sin las ineficiencias de alternar entre estas tareas.

La mayoría de los modelos convencionales deben mejorarse debido a la ineficiencia de almacenar grandes volúmenes de datos históricos y la necesidad de capacidades de procesamiento simultáneo. Las arquitecturas de secuencia a secuencia, que prevalecen en muchos MLLM, fuerzan un cambio entre la percepción y el razonamiento como si una persona no pudiera pensar mientras percibe su entorno. Además, la dependencia de ventanas de contexto ampliadas para almacenar datos históricos podría ser más sostenible para aplicaciones a largo plazo, ya que los datos multimodales, como las transmisiones de vídeo y audio, generan volúmenes simbólicos masivos en horas, y mucho menos en días. Esta ineficiencia limita la escalabilidad de dichos modelos y su practicidad en aplicaciones del mundo real donde la participación continua es esencial.

Los métodos existentes emplean diversas técnicas para procesar entradas multimodales, como muestreo disperso, agrupación temporal, tokens de vídeo comprimidos y bancos de memoria. Si bien estas estrategias ofrecen mejoras en áreas específicas, no logran lograr una verdadera cognición similar a la humana. Por ejemplo, modelos como Mini-Omni y VideoLLM-Online intentan cerrar la brecha en la comprensión de texto y video. Aún así, están limitados por su dependencia del procesamiento secuencial y la integración limitada de la memoria. Además, los sistemas actuales almacenan datos en formatos difíciles de manejar y dependientes del contexto que necesitan más flexibilidad y escalabilidad para interacciones continuas. Estas deficiencias resaltan la necesidad de un enfoque innovador que desenrede la percepción, el razonamiento y la memoria en módulos distintos pero colaborativos.

Investigadores del Laboratorio de Inteligencia Artificial de Shanghai, la Universidad China de Hong Kong, la Universidad Fudan, la Universidad de Ciencia y Tecnología de China, la Universidad Tsinghua, la Universidad Beihang y el Grupo SenseTime presentaron el PasanteLM-XComposer2.5-OmniLive (IXC2.5-OL)un marco integral de IA diseñado para la interacción multimodal en tiempo real para abordar estos desafíos. Este sistema integra técnicas de vanguardia para emular la cognición humana. El marco IXC2.5-OL consta de tres módulos clave:

  • Módulo de percepción de transmisión
  • Módulo de memoria larga multimodal
  • Módulo de razonamiento

Estos componentes funcionan armoniosamente para procesar flujos de datos multimodales, comprimir y recuperar memoria y responder a consultas de manera eficiente y precisa. Este enfoque modular, inspirado en las funcionalidades especializadas del cerebro humano, garantiza escalabilidad y adaptabilidad en entornos dinámicos.

El módulo Streaming Perception maneja el procesamiento de audio y video en tiempo real. Utilizando modelos avanzados como Whisper para codificación de audio y OpenAI CLIP-L/14 para percepción de video, este módulo captura características de alta dimensión de flujos de entrada. Identifica y codifica información clave, como el habla humana y los sonidos ambientales, en la memoria. Simultáneamente, El módulo de memoria larga multimodal comprime la memoria a corto plazo en representaciones eficientes a largo plazo.integrándolos para mejorar la precisión de la recuperación y reducir los costos de memoria. Por ejemplo, puede condensar millones de fotogramas de vídeo en unidades de memoria compactas, mejorando significativamente la eficiencia del sistema. El Módulo de Razonamiento, equipado con algoritmos avanzados, recupera información relevante del módulo de memoria para ejecutar tareas complejas y responder consultas de los usuarios. Esto permite al sistema IXC2.5-OL percibir, pensar y memorizar simultáneamente, superando las limitaciones de los modelos tradicionales.

El IXC2.5-OL ha sido evaluado en múltiples puntos de referencia. En procesamiento de audio, el sistema logró una tasa de error de palabras (WER) del 7,8% en la red de prueba china de Wenetspeech y del 8,4% en la reunión de prueba, superando a competidores como VITA y Mini-Omni. Para pruebas comparativas en inglés como LibriSpeech, obtuvo una puntuación WER del 2,5 % en conjuntos de datos limpios y del 9,2 % en entornos más ruidosos. En procesamiento de video, IXC2.5-OL se destacó en razonamiento de temas y reconocimiento de anomalías, logrando una puntuación M-Avg del 66,2 % en MLVU y una puntuación de última generación del 73,79 % en StreamingBench. El procesamiento simultáneo de flujos de datos multimodales por parte del sistema garantiza una interacción superior en tiempo real.

Las conclusiones clave de esta investigación incluyen las siguientes:

  • La arquitectura del sistema imita el cerebro humano al separar la percepción, la memoria y el razonamiento en módulos distintos, lo que garantiza escalabilidad y eficiencia.
  • Logró resultados de última generación en pruebas comparativas de reconocimiento de audio como Wenetspeech y LibriSpeech y tareas de video como detección de anomalías y razonamiento de acciones.
  • El sistema maneja millones de tokens de manera eficiente al comprimir la memoria a corto plazo en formatos a largo plazo, lo que reduce la sobrecarga computacional.
  • Todo el código, los modelos y los marcos de inferencia están disponibles para uso público.
  • La capacidad del sistema para procesar, almacenar y recuperar flujos de datos multimodales simultáneamente permite interacciones adaptables y fluidas en entornos dinámicos.

En conclusión, El marco InternLM-XComposer2.5-OmniLive está superando las limitaciones de larga data de la percepción, el razonamiento y la memoria simultáneos. El sistema logra una eficiencia y adaptabilidad notables al aprovechar un diseño modular inspirado en la cognición humana. Logra un rendimiento de última generación en pruebas comparativas como Wenetspeech y StreamingBench, lo que demuestra capacidades superiores de reconocimiento de audio, comprensión de video y integración de memoria. Por lo tanto, InternLM-XComposer2.5-OmniLive ofrece una interacción multimodal en tiempo real inigualable con cognición escalable similar a la humana.


Verificar el Papel, Página de GitHub, y Abrazando la página de la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.