Upstage presenta Solar-10.7B: modelos pioneros de lenguajes grandes con escalamiento en profundidad y precisión ajustada para conversaciones de un solo turno

Los investigadores de Altanero (una empresa de inteligencia artificial de Corea del Sur) ha abordado el desafío de maximizar el rendimiento de los modelos de lenguaje minimizando sus parámetros. En modelos de lenguaje grande (LLM), donde el tamaño del modelo a menudo se correlaciona con el rendimiento, Upstage presenta Solar-10.7B, un modelo innovador con 10.700 millones de parámetros. Esta innovación aborda el equilibrio inherente entre el tamaño del modelo y el rendimiento observado en modelos que superan los 30 mil millones de parámetros.

A diferencia de las herramientas existentes, Solar-10.7B de Upstage adopta la arquitectura Llama 2 y emplea una técnica novedosa conocida como Upstage Depth Up-Scaling. Inspirado en Mistral 7B, este método implica integrar pesas de Mistral 7B en capas mejoradas, seguido de un entrenamiento previo integral. El diseño compacto y el rendimiento excepcional de Solar-10.7B superan a modelos aún más grandes como Mixtral 8X7B. Es ideal para perfeccionar y mostrar adaptabilidad y solidez en diversas tareas lingüísticas.

Además, Upstage ofrece la versión mejorada, SOLAR-10.7B-Instruct-v1.0, diseñada explícitamente para conversaciones de un solo turno. Aprovechando los métodos de ajuste fino de la instrucción de última generación, incluido el ajuste fino supervisado (SFT) y la optimización de preferencias directas (DPO), los investigadores utilizaron un conjunto diverso de conjuntos de datos para la capacitación. Este modelo perfeccionado logra una notable puntuación del Modelo H6 de 74,20, haciendo alarde de su eficacia en escenarios de diálogo de un solo turno.

El rendimiento de Solar-10.7B se basa en su sofisticada arquitectura y estrategia de capacitación. La técnica Depth Up-Scaling, construida sobre la arquitectura Llama 2, permite que el modelo supere a aquellos con hasta 30 mil millones de parámetros. La integración de pesas Mistral 7B en las capas mejoradas contribuye a su notable rendimiento, superando incluso al modelo Mixtral 8X7B. Los resultados de la evaluación muestran la destreza de Solar-10.7B, con una puntuación del Modelo H6 de 74,20, lo que demuestra su superioridad incluso en comparación con modelos más grandes como Meta Llama 2.

El SOLAR-10.7B-Instruct-v1.0 optimizado sobresale en escenarios de conversación de un solo turno, superando a otros modelos con su impresionante puntuación Modelo H6 de 74,20. Este enfoque de ajuste, que aprovecha conjuntos de datos cuidadosamente seleccionados para la capacitación basada en instrucciones, subraya aún más su adaptabilidad y ganancias de rendimiento.

En conclusión, Solar-10.7B y su versión mejorada representan avances significativos en el dominio de los grandes modelos de lenguaje. Para abordar el desafío de equilibrar el tamaño y el rendimiento del modelo, los investigadores de Upstage han diseñado y ajustado estratégicamente estos modelos para ofrecer resultados de última generación. La innovadora técnica Depth Up-Scaling y la integración de Mistral 7B subrayan su adaptabilidad y eficiencia. A medida que los investigadores continúan ampliando los límites del desarrollo de modelos de lenguaje, Solar-10.7B y su versión perfeccionada son un testimonio de la búsqueda continua de optimizar el rendimiento en el procesamiento del lenguaje natural.

Madhur

" data-medium-file="https://www.marktechpost.com/wp-content/uploads/2023/07/IMG_20230724_112122-Madhur-Garg-297x300.jpg" data-large-file="https://www.marktechpost.com/wp-content/uploads/2023/07/IMG_20230724_112122-Madhur-Garg-1015x1024.jpg"/>

Madhur Garg es pasante de consultoría en MarktechPost. Actualmente está cursando su Licenciatura en Ingeniería Civil y Ambiental en el Instituto Indio de Tecnología (IIT), Patna. Comparte una gran pasión por el aprendizaje automático y disfruta explorando los últimos avances en tecnologías y sus aplicaciones prácticas. Con un gran interés en la inteligencia artificial y sus diversas aplicaciones, Madhur está decidido a contribuir al campo de la ciencia de datos y aprovechar su impacto potencial en diversas industrias.

🐝 [FREE AI WEBINAR] ‘Creación de aplicaciones multimodales con LlamaIndex: chat con texto + datos de imagen’ 18 de diciembre de 2023, 10 a. m. PST

Upstage presenta Solar-10.7B: modelos pioneros de lenguajes grandes con escalamiento en profundidad y precisión ajustada para conversaciones de un solo turno

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Un tutorial de codificación para ejecutar PrismML Bonsai 1-Bit LLM en CUDA con GGUF, evaluación comparativa, Chat, JSON y RAG

NVIDIA lanza Ising: la primera familia de modelos abiertos de IA cuántica para sistemas híbridos cuánticos-clásicos

xAI lanza las API independientes de voz a texto y de texto a voz de Grok, dirigidas a desarrolladores de voz empresarial

You missed

Se observan hormigas pequeñas limpiando hormigas grandes en el desierto de Arizona: un nuevo comportamiento en los insectos

El Partido Republicano critica los precios del gas

¿Deberían los expatriados que alquilan en España mudarse a una nueva casa en 2026? « Noticias semanales del euro

Serie La Sexta Facción de Veronica Roth