Con la liberación frecuente de nuevos modelos de idiomas grandes (LLM), existe una búsqueda persistente para minimizar los errores repetitivos, mejorar la robustez y mejorar significativamente las interacciones del usuario. A medida que los modelos de IA se vuelven integrales a tareas computacionales más sofisticadas, los desarrolladores están refinando consistentemente sus capacidades, asegurando una integración perfecta dentro de diversos escenarios del mundo real.
Mistral AI ha lanzado Mistral Small 3.2 (Mistral-Small-3.2-24b-Instructo 25506), una versión actualizada de su lanzamiento anterior, Mistral-Small-3.1-24b-Instuctu-2503. Aunque es una versión menor, Mistral Small 3.2 introduce actualizaciones fundamentales que tienen como objetivo mejorar la confiabilidad y eficiencia general del modelo, particularmente en el manejo de instrucciones complejas, evitando salidas redundantes y mantener la estabilidad en escenarios de llamada de funciones.
Una mejora significativa en Mistral Small 3.2 es su precisión en la ejecución de instrucciones precisas. La interacción exitosa del usuario a menudo requiere precisión en la ejecución de comandos sutiles. Las puntuaciones de referencia reflejan con precisión esta mejora: bajo la prueba de instrucciones de Wildbench V2, Mistral Small 3.2 alcanzó una precisión del 65.33%, una mejora de 55.6% para su predecesor. Por el contrario, el rendimiento en la prueba Hard V2 de arena difícil se duplicó casi de 19.56% a 43.1%, lo que proporciona evidencia de su capacidad mejorada para ejecutar y comprender comandos complejos con precisión.
Corrección de errores de repetición, Mistral Small 3.2 minimiza en gran medida las instancias de salida infinita o repetitiva, un problema comúnmente enfrentado en largos escenarios de conversación. Las evaluaciones internas muestran que el pequeño 3.2 reduce efectivamente las instancias de errores de generación infinita a la mitad, del 2.11% en el pequeño 3.1 a 1.29%. Esta reducción completa aumenta directamente la usabilidad y la confiabilidad del modelo en las interacciones extendidas. El nuevo modelo también demuestra una mayor capacidad para llamar a las funciones, lo que lo hace ideal para tareas de automatización. Además, la robustez mejorada en la plantilla de llamadas de función se traduce en interacciones más estables y confiables.
La mejora de referencia relacionada con el tallo demuestra aún más la aptitud de 3.2. Por ejemplo, la prueba de código Humaneval Plus Pass@5 tuvo su aumento de precisión de 88.99% en 3.1 a un enorme 92.90%. Además, los resultados de las pruebas MMLU PRO aumentaron de 66.76% a 69.06%, y las clasificaciones de diamantes GPQA mejoraron ligeramente de 45.96% a 46.13%, que muestra competencia general en usos científicos y técnicos.
Los resultados de rendimiento basados en la visión fueron inconsistentes, con ciertas optimizaciones aplicadas selectivamente. La precisión del CACHQA mejoró de 86.24% a 87.4%, y DOCVQA mejoró marginalmente de 94.08% a 94.86%. Por el contrario, algunas pruebas, como MMMU y Mathvista, experimentaron pequeñas salsas, lo que indica compensaciones específicas encontradas durante el proceso de optimización.
Las actualizaciones clave en Mistral Small 3.2 sobre Small 3.1 incluyen:
- Precisión mejorada en el seguimiento de las instrucciones, con la precisión Wildbench V2 que aumenta del 55.6% al 65.33%.
- Reducción de errores de repetición, reduciendo a la mitad las instancias de generación infinita del 2.11% al 1.29%.
- La robustez mejorada en las plantillas de llamadas de funciones, asegurando integraciones más estables.
- Aumentos notables en el rendimiento relacionado con STEM, particularmente en Humaneval Plus Pass@5 (92.90%) y MMLU Pro (69.06%).
En conclusión, Mistral Small 3.2 ofrece mejoras específicas y prácticas sobre su predecesor, proporcionando a los usuarios una mayor precisión, redundancia reducida y mejores capacidades de integración. Estos avances ayudan a posicionarlo como una elección confiable para tareas complejas impulsadas por la IA en diversas áreas de aplicación.
Mira el Tarjeta modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.