Zhipu AI ha abierto la serie GLM-4.6V como un par de modelos de lenguaje de visión que tratan imágenes, videos y herramientas como entradas de primera clase para los agentes, no como ideas de último momento adjuntas al texto.
Alineación de modelos y duración del contexto.
La serie tiene 2 modelos. GLM-4.6V es un modelo básico de parámetros 106B para cargas de trabajo de clústeres de alto rendimiento y en la nube. GLM-4.6V-Flash es una variante de parámetro 9B ajustada para implementación local y uso de baja latencia.
GLM-4.6V amplía la ventana de contexto de entrenamiento a 128.000 tokens. En la práctica, esto admite aproximadamente 150 páginas de documentos densos, 200 páginas de diapositivas o una hora de vídeo en una sola pasada porque las páginas están codificadas como imágenes y consumidas por el codificador visual.
Uso de herramientas multimodales nativas
El principal cambio técnico es la llamada a función multimodal nativa. El uso de herramientas tradicionales en los sistemas LLM dirige todo a través del texto. Las imágenes o páginas primero se convierten en descripciones, el modelo llama a las herramientas usando argumentos de texto y luego lee las respuestas textuales. Esto desperdicia información y aumenta la latencia.
GLM-4.6V presenta llamadas de funciones multimodales nativas. Imágenes, capturas de pantalla y páginas de documentos pasan directamente como parámetros de la herramienta. Las herramientas pueden devolver cuadrículas de resultados de búsqueda, gráficos, páginas web renderizadas o imágenes de productos. El modelo consume esos resultados visuales y los fusiona con texto en la misma cadena de razonamiento. Esto cierra el círculo de la percepción a la comprensión y a la ejecución y se posiciona explícitamente como el puente entre la percepción visual y la acción ejecutable para agentes multimodales.
Para respaldar esto, Zhipu AI amplía el protocolo de contexto del modelo con manejo multimodal basado en URL. Las herramientas reciben y devuelven URL que identifican imágenes o marcos específicos, lo que evita límites de tamaño de archivo y permite una selección precisa dentro de contextos de múltiples imágenes.
Contenido de texto enriquecido, búsqueda web y replicación frontend
El equipo de investigación de Zhipu AI describe 4 escenarios canónicos:
Primero, comprensión y creación de contenido de texto enriquecido. GLM-4.6V lee entradas mixtas, como artículos, informes o presentaciones de diapositivas, y produce salidas de texto de imagen estructurada intercaladas. Entiende texto, gráficos, figuras, tablas y fórmulas en un mismo documento. Durante la generación, puede recortar imágenes relevantes o recuperar imágenes externas a través de herramientas, luego ejecutar un paso de auditoría visual que filtra imágenes de baja calidad y compone el artículo final con figuras en línea.
En segundo lugar, búsqueda web visual. El modelo puede detectar la intención del usuario, planificar qué herramientas de búsqueda llamar y combinar la búsqueda de texto a imagen e imagen a texto. Luego alinea las imágenes y el texto recuperados, selecciona la evidencia relevante y genera una respuesta estructurada, por ejemplo, una comparación visual de productos o lugares.
En tercer lugar, replicación frontend e interacción visual. GLM-4.6V está optimizado para diseñar y codificar flujos de trabajo. A partir de una captura de pantalla de la interfaz de usuario, reconstruye HTML, CSS y JavaScript con precisión de píxeles. Luego, los desarrolladores pueden marcar una región en la captura de pantalla y emitir instrucciones en lenguaje natural, por ejemplo, mover este botón hacia la izquierda o cambiar el fondo de esta tarjeta. El modelo asigna esas instrucciones al código y devuelve un fragmento actualizado.
Cuarto, comprensión de documentos multimodales en un contexto largo. GLM-4.6V puede leer entradas de múltiples documentos hasta el límite de contexto de token de 128 KB al tratar las páginas como imágenes. El equipo de investigación informa un caso en el que el modelo procesa informes financieros de cuatro empresas públicas, extrae métricas básicas y crea una tabla comparativa, y un caso en el que resume un partido de fútbol completo manteniendo la capacidad de responder preguntas sobre objetivos y marcas de tiempo específicos.
Arquitectura, datos y aprendizaje por refuerzo.
Los modelos GLM-4.6V pertenecen a la familia GLM-V y se basan en el informe técnico de GLM-4.5V y GLM-4.1V-Thinking. El equipo de investigación destaca tres ingredientes técnicos principales.
Primero, modelado de secuencia larga. GLM-4.6V amplía la ventana de contexto de entrenamiento a 128.000 tokens y ejecuta un entrenamiento previo continuo en corpus masivos de texto de imágenes de contexto largo. Utiliza ideas de alineación de compresión de Glyph para que los tokens visuales puedan transportar información densa que esté alineada con los tokens del lenguaje.
En segundo lugar, la mejora del conocimiento mundial. El equipo de Zhipu AI agrega un conjunto de datos de conocimiento mundial y percepción multimodal a escala de mil millones en el momento previo al entrenamiento. Esto cubre conceptos enciclopédicos en capas y entidades visuales cotidianas. El objetivo declarado es mejorar tanto la percepción básica como la integridad de las respuestas a preguntas intermodales, no solo los puntos de referencia.
En tercer lugar, síntesis de datos agentes y MCP extendido. El equipo de investigación genera grandes rastros sintéticos donde el modelo llama a herramientas, procesa resultados visuales e itera sobre planes. Extienden MCP con manejo multimodal basado en URL y un mecanismo de salida entrelazado. La pila de generación sigue una secuencia de borrador, selección de imagen y pulido final. El modelo puede llamar de forma autónoma a herramientas de recorte o búsqueda entre estas etapas para colocar imágenes en las posiciones correctas en la salida.
La invocación de herramientas es parte del objetivo de aprendizaje por refuerzo. GLM-4.6V utiliza RL para alinear la planificación, el seguimiento de instrucciones y el cumplimiento del formato en cadenas de herramientas complejas.
Actuación
Conclusiones clave
GLM-4.6V es un modelo básico multimodal de 106B con un contexto de entrenamiento de tokens de 128K, y GLM-4.6V-Flash es una variante de 9B optimizada para uso local y de baja latencia. Ambos modelos admiten funciones nativas multimodales para que las herramientas puedan consumir y devolver imágenes, fotogramas de vídeo y páginas de documentos directamente, lo que vincula la percepción visual con acciones ejecutables para los agentes. GLM-4.6V está capacitado para la comprensión multimodal de contexto largo y la generación intercalada, por lo que puede leer grandes conjuntos de documentos mixtos y emitir texto estructurado con figuras en línea e imágenes seleccionadas con herramientas en una sola pasada. La serie logra un rendimiento de vanguardia en los principales puntos de referencia multimodales en escalas de parámetros similares y se publica como pesas de código abierto bajo la licencia del MIT en Hugging Face y ModelScope.
Consulte la ficha modelo en HF y detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.