Zhipu AI libera GLM-4.5V: razonamiento multimodal versátil con aprendizaje de refuerzo escalable


Zhipu Ai ha lanzado oficialmente y de origen abierto GLM-4.5V, un modelo de lenguaje de visión (VLM) de próxima generación que avanza significativamente el estado de IA multimodal abierta. Basado en la arquitectura GLM-5.5-Air de Zhipu de 106 mil millones de Air, con 12 mil millones de parámetros activos a través de un diseño de mezcla de expertos (MOE), GLM-4.5V ofrece un rendimiento sólido del mundo real y una versatilidad inigualable en el contenido visual y textual.

Características clave e innovaciones de diseño

1. Razonamiento visual integral

  • Razonamiento de la imagen: GLM-4.5V logra una comprensión de la escena avanzada, análisis de múltiples imágenes y reconocimiento espacial. Puede interpretar relaciones detalladas en escenas complejas (como distinguir defectos del producto, analizar pistas geográficas o inferir el contexto de múltiples imágenes simultáneamente).
  • Entendimiento de video: Procesa videos largos, realizando segmentación automática y reconociendo eventos matizados gracias a un codificador de visión convolucional 3D. Esto permite aplicaciones como storyboard, análisis deportivo, revisión de vigilancia y resumen de conferencias.
  • Razonamiento espacial: La codificación posicional rotacional 3D integrada (cuerda 3D) le da al modelo una percepción robusta de las relaciones espaciales tridimensionales, cruciales para interpretar escenas visuales y elementos visuales de base.

2. Tareas avanzadas de GUI y agente

  • Lectura de pantalla y reconocimiento de iconos: El modelo se destaca en la lectura de interfaces de escritorio/aplicaciones, los botones y los íconos de localización, y la ayuda con la automatización, esencial para RPA (automatización de procesos robóticos) y herramientas de accesibilidad.
  • Asistencia de operación de escritorio: A través de una comprensión visual detallada, GLM-4.5V puede planificar y describir las operaciones de GUI, ayudando a los usuarios a navegar en software o realizar flujos de trabajo complejos.

3. Gráfico complejo y análisis de documentos

  • Entendimiento del gráfico: GLM-4.5V puede analizar gráficos, infografías y diagramas científicos dentro de los archivos PDF o PowerPoint, extrayendo conclusiones resumidas y datos estructurados incluso de documentos densos y largos.
  • Interpretación larga del documento: Con el apoyo a hasta 64,000 tokens de contexto multimodal, puede analizar y resumir documentos extendidos ricos en imágenes (como trabajos de investigación, contratos o informes de cumplimiento), lo que lo hace ideal para la inteligencia empresarial y la extracción de conocimiento.

4. Localización visual y de conexión a tierra

  • Grounding preciso: El modelo puede localizar y describir con precisión elementos visuales, como objetos, cajas limitantes o elementos de IU específicos, utilizando el conocimiento mundial y el contexto semántico, no solo las señales a nivel de píxel. Esto permite un análisis detallado para control de calidad, aplicaciones AR y flujos de trabajo de anotación de imágenes.

Destacados arquitectónicos

  • Tubería híbrida en idioma de visión: El sistema integra un poderoso codificador visual, un adaptador MLP y un decodificador de lenguaje, que permite una fusión perfecta de información visual y textual. Las imágenes estáticas, videos, GUI, gráficos y documentos se tratan como entradas de primera clase.
  • Mezcla de expertos (MOE) Eficiencia: Mientras alberga los parámetros totales de 106B, el diseño del MOE activa solo 12b por inferencia, asegurando un alto rendimiento y un despliegue asequible sin sacrificar la precisión.
  • Convolución 3D para video e imágenes: Las entradas de video se procesan utilizando muestreo descendente temporal y convolución 3D, lo que permite el análisis de videos de alta resolución y relaciones de aspecto nativo, al tiempo que mantiene la eficiencia.
  • Longitud del contexto adaptativo: Admite hasta 64k tokens, lo que permite el manejo robusto de indicaciones de múltiples imágenes, documentos concatenados y largos diálogos en una sola vez.
  • Pretratenamiento innovador y RL: El régimen de entrenamiento combina la pretruación multimodal masiva, el ajuste fino supervisado y Aprendizaje de refuerzo con muestreo curricular (RLC) Para el dominio de razonamiento de cadena larga y la robustez de tarea del mundo real.

“Modo de pensamiento” para la profundidad de razonamiento sintonizable

Una característica destacada es el alternar “Modo de pensamiento”:

  • Modo de pensamiento en: Prioriza un razonamiento profundo, paso a paso, adecuado para tareas complejas (por ejemplo, deducción lógica, gráfico de múltiples pasos o análisis de documentos).
  • Modo de pensamiento apagado: Ofrece respuestas más rápidas y directas para búsqueda de rutina o preguntas y respuestas simples. El usuario puede controlar la profundidad de razonamiento del modelo con inferencia, equilibrando la velocidad contra la interpretabilidad y el rigor.

Rendimiento de referencia e impacto en el mundo real

  • Resultados de última generación: GLM-4.5V logra SOTA en 41–42 puntos de referencia multimodales públicos, incluidos MMBench, AI2D, MMStar, Mathvista y más, superando tanto a los modelos de propiedad abierta y algunos en categorías como STEM QA, Comprensión de los gráficos, operación GUI y comprensión de video.
  • Despliegues prácticos: Las empresas e investigadores informan resultados transformadores en la detección de defectos, análisis de informes automatizados, creación de asistentes digitales y tecnología de accesibilidad con GLM-4.5V.
  • Democratización de IA multimodal: De código abierto bajo la licencia MIT, el modelo iguala el acceso al razonamiento multimodal de vanguardia que anteriormente fue cerrado por API de propiedad exclusiva.

Ejemplo de casos de uso

Característica Ejemplo de uso Descripción
Razonamiento de imágenes Detección de defectos, moderación de contenido Comprensión de la escena, resumen de imágenes múltiples
Análisis de video Vigilancia, creación de contenido Segmentación de video largo, reconocimiento de eventos
Tareas de GUI Accesibilidad, automatización, QA Lectura de pantalla/interfaz de usuario, ubicación de icono, sugerencia de operación
Analizador Finanzas, informes de investigación Análisis visual, extracción de datos de gráficos complejos
Análisis de documentos Ley, seguro, ciencia Analizar y resumir documentos ilustrados desde hace mucho tiempo
Toma de tierra Ar, minorista, robótica Localización de objetos objetivo, referencia espacial

Resumen

GLM-4.5V de Zhipu AI es un modelo de modelo de visión abierta que establece un nuevo rendimiento y estándares de usabilidad para razonamiento multimodal. Con su potente arquitectura, duración del contexto, “modo de pensamiento” en tiempo real y su amplio espectro de capacidad, GLM-4.5V está redefiniendo lo que es posible para empresas, investigadores y desarrolladores que trabajan en la intersección de la visión y el lenguaje.


Mira el Papel, Modelo en la cara abrazada y Página de Github aquí. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.