Evaluación del desempeño del LLM: agente, razonamiento y codificación
Creado para esta nueva fase, GLM-5 se encuentra entre los modelos de código abierto más sólidos para codificación y ejecución autónoma de tareas. En entornos de programación prácticos, su rendimiento se acerca al de Claude Opus 4.5, particularmente en el diseño de sistemas complejos y tareas de largo plazo que requieren planificación y ejecución sostenidas.
El modelo se basa en una nueva arquitectura destinada a escalar tanto la capacidad como la eficiencia. Su recuento de parámetros se ha expandido de 355 mil millones a 744 mil millones, con parámetros activos aumentando de 32 mil millones a 40 mil millones, mientras que los datos previos al entrenamiento han aumentado a 28,5 billones de tokens. Estos aumentos van acompañados de avances en los métodos de entrenamiento. Un marco llamado Slime permite el aprendizaje por refuerzo asincrónico a mayor escala, lo que permite que el modelo aprenda continuamente a partir de interacciones extendidas y mejore la eficiencia posterior al entrenamiento. GLM-5 también presenta DeepSeek Sparse Attention, que mantiene el rendimiento en contextos prolongados al tiempo que reduce los costos de implementación y mejora la eficiencia de los tokens.
Únase al European Business Briefing
El correo electrónico diario sobre mercados, tecnología, energía y dinero en toda Europa. Únase a más de 10 000 fundadores, inversores y ejecutivos que leen EBM todas las mañanas.
Suscribir
Los puntos de referencia sugieren fuertes ganancias. En SWE-bench-Verified y Terminal Bench 2.0, GLM-5 obtiene puntuaciones de 77,8 y 56,2, respectivamente, los resultados más altos reportados para modelos de código abierto, superando a Gemini 3 Pro en varias tareas de ingeniería de software. En Vending Bench 2, que simula la gestión de un negocio de máquinas expendedoras durante un año, finaliza con un saldo de 4.432 dólares, liderando otros modelos de código abierto en gestión operativa y económica.
Estos resultados resaltan las cualidades requeridas para la ingeniería agencial: mantener objetivos en horizontes a largo plazo, gestionar recursos y coordinar procesos de varios pasos. A medida que los modelos asumen cada vez más estas capacidades, la frontera de la IA parece estar pasando de escribir código a entregar sistemas que funcionen.
Chat y acceso API oficial
Chat Z.ai: https://chat.z.ai
Plan de codificación GLM: https://z.ai/subscribe?utm_source=pr&utm_medium=press&utm_campaign=launch
Repositorios de código abierto
GitHub: https://github.com/zai-org/GLM-5
Cara de abrazo: https://huggingface.co/zai-org/GLM-5
Blog
Blog técnico de GLM-5: https://z.ai/blog/glm-5
Hashtag: #ZAI
El emisor es el único responsable del contenido de este anuncio.