En el panorama en rápida evolución de los grandes modelos de idiomas (LLM), los investigadores y organizaciones enfrentan desafíos significativos. Estos incluyen mejorar las habilidades de razonamiento, proporcionar un soporte multilingüe robusto y administrar eficientemente tareas complejas y abiertas. Aunque los modelos más pequeños a menudo son más accesibles y rentables, generalmente se quedan cortos en rendimiento en comparación con sus contrapartes más grandes. Por lo tanto, existe un énfasis creciente en el desarrollo de modelos medianos que equilibran efectivamente la eficiencia computacional con fuertes razonamiento y capacidades de seguimiento de instrucciones.
El reciente lanzamiento de GLM 4 de la Universidad de Tsinghua, particularmente la variante GLM-Z1-32B-0414, aborda estos desafíos de manera efectiva. Entrenado en un conjunto de datos sustancial de 15 billones de tokens, GLM 4 está diseñado para ofrecer capacidades multilingües confiables e incorpora estrategias de razonamiento innovadoras denominadas “modo de pensamiento”. Esta liberación posiciona GLM 4 junto con otros modelos notables como Deepseek Distill, QWQ y O1-Mini, y se distribuye bajo la licencia MIT ampliamente respetada. En particular, a pesar de su tamaño de parámetro relativamente moderado de 32 mil millones, GLM 4 demuestra un rendimiento comparable a modelos mucho más grandes como GPT-4O y Deepseek-V3, que contienen hasta 671 mil millones de parámetros, particularmente en puntos de referencia centrados en el razonamiento.
En un nivel técnico, GLM-Z1-32B-0414 aprovecha amplios datos de entrenamiento de alta calidad, incluidas tareas de razonamiento generadas sintéticamente, para fortalecer las capacidades analíticas. El modelo integra técnicas sofisticadas, como el muestreo de rechazo y el aprendizaje de refuerzo (RL) para mejorar el rendimiento en tareas, codificación, llamadas de funciones y tareas de respuesta de preguntas basadas en la búsqueda. Además, su variación de “modelo de razonamiento profundo” refina aún más esto mediante el empleo de métodos de arranque en frío combinados con capacitación RL extendida, específicamente dirigida a tareas complejas matemáticas, lógicas y de codificación. Los mecanismos de retroalimentación de clasificación por pares se emplean durante la capacitación para mejorar la efectividad del razonamiento general del modelo.
Una variante avanzada, GLM-Z1-Rumination-32B-0414, introduce un enfoque novedoso denominado “rumia”, que permite un razonamiento reflexivo prolongado para abordar consultas abiertas y complejas como el análisis urbano comparativo de IA. Esta variante integra herramientas de búsqueda avanzadas con aprendizaje de refuerzo de objetivos múltiples, mejorando significativamente su utilidad en tareas intensivas en investigación y escenarios complejos basados en recuperación. Complementando estos modelos más grandes, la versión GLM-Z1-9B-0414, con sus 9 mil millones de parámetros, proporciona fuertes capacidades de razonamiento matemático y general, lo que demuestra la practicidad de los modelos a menor escala.

Los datos de rendimiento de las evaluaciones de referencia enfatizan las fortalezas de la serie GLM 4. Específicamente, GLM-4-32B-0414 muestra resultados robustos en comparación con GPT-4O, Deepseek-V3 y Qwen2.5-Max en múltiples puntos de referencia. En el punto de referencia de seguimiento de instrucciones Ifeval, GLM 4 obtiene un impresionante 87.6. En los puntos de referencia de automatización de tareas como Tau-Bench, GLM 4 logra puntajes fuertes en escenarios como el comercio minorista (68.7) y la aerolínea (51.2). Para las tareas de respuesta a la pregunta de búsqueda de búsqueda, según lo evaluado por SimpleQA, el modelo registra una puntuación alta de 88.1. Además, GLM 4 coincide estrechamente con el rendimiento de GPT-4O en las tareas de llamada de funciones evaluadas por el punto de referencia BFCL-V3, asegurando una puntuación general de 69.6. En escenarios de reparación de código práctico probados a través del banco SWE con el marco sin foso, GLM 4 logra una tasa de éxito del 33.8%, lo que subraya su valor práctico.
En resumen, GLM 4 se presenta como una familia efectiva de modelos de lenguaje, cerrando con éxito la brecha de rendimiento entre los modelos más pequeños y más accesibles y las contrapartes a gran escala tradicionalmente superiores. La serie GLM-Z1, especialmente la variante 32B, ejemplifica este enfoque equilibrado al proporcionar potentes capacidades de razonamiento mientras se mantiene la asequibilidad computacional. Con la ventaja adicional de su licencia MIT permisiva, GLM 4 se posiciona como una herramienta robusta para la investigación y las aplicaciones empresariales que requieren soluciones de IA de alto rendimiento sin la extensa sobrecarga computacional tradicionalmente asociada con modelos más grandes.
Verificar GLM-4-Z1-32B-0414 Modelo y Otros modelos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.