Upstage presenta Solar-10.7B: modelos pioneros de lenguajes grandes con escalamiento en profundidad y precisión ajustada para conversaciones de un solo turno

Los investigadores de Altanero (una empresa de inteligencia artificial de Corea del Sur) ha abordado el desafío de maximizar el rendimiento de los modelos de lenguaje minimizando sus parámetros. En modelos de lenguaje grande (LLM), donde el tamaño del modelo a menudo se correlaciona con el rendimiento, Upstage presenta Solar-10.7B, un modelo innovador con 10.700 millones de parámetros. Esta innovación aborda el equilibrio inherente entre el tamaño del modelo y el rendimiento observado en modelos que superan los 30 mil millones de parámetros.

A diferencia de las herramientas existentes, Solar-10.7B de Upstage adopta la arquitectura Llama 2 y emplea una técnica novedosa conocida como Upstage Depth Up-Scaling. Inspirado en Mistral 7B, este método implica integrar pesas de Mistral 7B en capas mejoradas, seguido de un entrenamiento previo integral. El diseño compacto y el rendimiento excepcional de Solar-10.7B superan a modelos aún más grandes como Mixtral 8X7B. Es ideal para perfeccionar y mostrar adaptabilidad y solidez en diversas tareas lingüísticas.

Además, Upstage ofrece la versión mejorada, SOLAR-10.7B-Instruct-v1.0, diseñada explícitamente para conversaciones de un solo turno. Aprovechando los métodos de ajuste fino de la instrucción de última generación, incluido el ajuste fino supervisado (SFT) y la optimización de preferencias directas (DPO), los investigadores utilizaron un conjunto diverso de conjuntos de datos para la capacitación. Este modelo perfeccionado logra una notable puntuación del Modelo H6 de 74,20, haciendo alarde de su eficacia en escenarios de diálogo de un solo turno.

El rendimiento de Solar-10.7B se basa en su sofisticada arquitectura y estrategia de capacitación. La técnica Depth Up-Scaling, construida sobre la arquitectura Llama 2, permite que el modelo supere a aquellos con hasta 30 mil millones de parámetros. La integración de pesas Mistral 7B en las capas mejoradas contribuye a su notable rendimiento, superando incluso al modelo Mixtral 8X7B. Los resultados de la evaluación muestran la destreza de Solar-10.7B, con una puntuación del Modelo H6 de 74,20, lo que demuestra su superioridad incluso en comparación con modelos más grandes como Meta Llama 2.

El SOLAR-10.7B-Instruct-v1.0 optimizado sobresale en escenarios de conversación de un solo turno, superando a otros modelos con su impresionante puntuación Modelo H6 de 74,20. Este enfoque de ajuste, que aprovecha conjuntos de datos cuidadosamente seleccionados para la capacitación basada en instrucciones, subraya aún más su adaptabilidad y ganancias de rendimiento.

En conclusión, Solar-10.7B y su versión mejorada representan avances significativos en el dominio de los grandes modelos de lenguaje. Para abordar el desafío de equilibrar el tamaño y el rendimiento del modelo, los investigadores de Upstage han diseñado y ajustado estratégicamente estos modelos para ofrecer resultados de última generación. La innovadora técnica Depth Up-Scaling y la integración de Mistral 7B subrayan su adaptabilidad y eficiencia. A medida que los investigadores continúan ampliando los límites del desarrollo de modelos de lenguaje, Solar-10.7B y su versión perfeccionada son un testimonio de la búsqueda continua de optimizar el rendimiento en el procesamiento del lenguaje natural.


Madhur Garg es pasante de consultoría en MarktechPost. Actualmente está cursando su Licenciatura en Ingeniería Civil y Ambiental en el Instituto Indio de Tecnología (IIT), Patna. Comparte una gran pasión por el aprendizaje automático y disfruta explorando los últimos avances en tecnologías y sus aplicaciones prácticas. Con un gran interés en la inteligencia artificial y sus diversas aplicaciones, Madhur está decidido a contribuir al campo de la ciencia de datos y aprovechar su impacto potencial en diversas industrias.