Sugerging Face se comunica SMOLLM3: un modelo de razonamiento multilingüe de contexto largo 3B

Cara abrazada recién lanzado Smollm3la última versión de sus modelos de lenguaje “SMOL”, diseñada para ofrecer un razonamiento multilingüe fuerte en contextos largos utilizando una arquitectura compacta de parámetros 3B. Mientras que la mayoría de los modelos con capacidad de alto contexto generalmente empujan más allá de los parámetros de 7B, SMOLLM3 logra ofrecer el rendimiento de última generación (SOTA) con significativamente menos parámetros, lo que lo hace más rentable y se puede desplegar en hardware restringido, sin comprometer capacidades como el uso de herramientas, el razonamiento de múltiples pasos y la diversidad de idiomas.

Descripción general de Smollm3

Smollm3 se destaca como un Modelo de lenguaje de contexto largo, multilingüe y de doble modo capaz de manejar secuencias hasta 128k tokens. Fue entrenado en 11 billones de tokensposicionándolo de manera competitiva contra modelos como Mistral, Llama 2 y Falcon. A pesar de su tamaño, Smollm3 logra un rendimiento de uso de herramientas sorprendentemente fuerte y la capacidad de razonamiento de pocos disparos, los tratos más comúnmente asociados con los modelos duplican o triplican su tamaño.

SMOLLM3 fue lanzado en dos variantes:

Ambos modelos están disponibles públicamente bajo la licencia Apache 2.0 en el Hub Model de Hugging Face.

Características clave

1. Razonamiento de contexto largo (hasta 128k tokens)
SmollM3 utiliza un mecanismo de atención modificado para procesar contextos extremadamente largos, hasta 128,000 tokens. Esta capacidad es crucial para las tareas que involucran documentos extendidos, registros o registros estructurados donde la longitud de contexto afecta directamente la comprensión y la precisión.

2. Razonamiento de doble modo
El SMOLLM3-3B sintonizado con instrucciones admite razonamiento de modo dual:

  • Seguimiento de instrucciones Para tareas de estilo chat y augsadas en herramientas.
  • QA y generación multilingües Para tareas en múltiples idiomas.

Esta bifurcación permite que el modelo sobresalga tanto en la generación abierta como en el razonamiento estructurado, lo que lo hace adecuado para aplicaciones que van desde TRAPO tuberías para los flujos de trabajo del agente.

3. Capacidades multilingües
Entrenado en un corpus multilingüe, Smollm3 admite seis idiomas: Inglés, francés, español, alemán, italiano y portugués. Se desempeña bien en puntos de referencia como XQUAD y MGSM, lo que demuestra su capacidad para generalizar a través de los límites lingüísticos con una caída de rendimiento mínima.

4. Tamaño compacto con rendimiento de SOTA
Solo 3 mil millones de parámetrosSmollm3 logra el rendimiento cercano o en la par con modelos más grandes como Mistral-7B en múltiples tareas aguas abajo. Esto es posible gracias a la escala y la calidad de sus datos de entrenamiento (tokens 11t) y un cuidadoso ajuste arquitectónico.

5. Uso de herramientas y salidas estructuradas
El modelo demuestra un rendimiento impresionante en las tareas de llamado de herramientas, tanto en flujos de trabajo basados ​​en indicaciones como con salidas estructuradas. Sigue correctamente las restricciones e interfaces de entrada e interfaces impulsadas por el esquema con los sistemas que requieren un comportamiento determinista, como agentes autónomos y entornos impulsados ​​por API.

Detalles de capacitación técnica

SMOLLM3 fue capacitado en una mezcla interna curada por la cara abrazada, que consiste en contenido web de alta calidad, código, documentos académicos y fuentes multilingües. La ejecución de capacitación de 11T-Token se realizó utilizando estrategias de capacitación distribuidas de múltiples nodos en grupos de GPU, empleando optimizaciones como Flash Attence V2 para una capacitación eficiente de secuencia larga. El tokenizer es un modelo de sentencia de 128k-token, compartido en todos los idiomas compatibles.

Para un largo apoyo del contexto, abrazando la cara empleada Mecanismos de atención lineales y agrupados que minimizan la complejidad cuadrática mientras retiene el rendimiento. Esto permitió al modelo manejar longitudes de contexto de hasta 128k durante el entrenamiento y la inferencia, sin cuellos de botella de memoria que afectan a los transformadores densos a esta escala.

El Smollm3-3b La variante ajustada a las instrucciones fue entrenada aún más usando la cara abrazada TRLX Biblioteca para alinearse con instrucciones de chat, tareas de razonamiento y demostraciones de uso de herramientas.

Puntos de referencia de rendimiento

Smollm3 se desempeña fuertemente en múltiples puntos de referencia multilingües y de razonamiento:

  • XQUAD (QA multilingüe): Puntajes competitivos en los seis idiomas compatibles.
  • MGSM (matemáticas de la escuela primaria multilingüe): Supera varios modelos más grandes en configuraciones de cero disparos.
  • Toolqa y Multihopqa: Muestra un fuerte razonamiento de varios pasos y con el contexto de contexto.
  • Arco y mmlu: Alta precisión en dominios de conocimiento comunes y profesionales.

Si bien no supera los últimos modelos 7B y 13B en cada punto de referencia, la relación rendimiento a parámetro de SMOLLM3 sigue siendo una de las más altas de su clase.

Casos de uso y aplicaciones

Smollm3 es particularmente adecuado para:

  • Implementaciones de IA multilingües de bajo costo en chatbots, sistemas de servicio de ayuda y resumen de documentos.
  • Sistemas livianos basados ​​en trapo y recuperación que se benefician de la comprensión de contexto a largo plazo.
  • Agentes de herramientas requerir adherencia al esquema e invocación de herramienta determinista.
  • Despliegues de borde y entornos privados donde se necesitan modelos más pequeños debido a restricciones de privacidad de hardware o datos.

Conclusión

SMOLLM3 ejemplifica una nueva generación de modelos de idiomas pequeños pero con capacidad. Su combinación de soporte multilingüe, manejo de contexto largo y un razonamiento fuerte, todo dentro de una huella de parámetros 3B, marca un paso adelante significativo en la eficiencia y la accesibilidad del modelo. El lanzamiento de Hugging Face demuestra que con la receta de entrenamiento adecuada y el diseño arquitectónico, los modelos más pequeños aún pueden ofrecer un rendimiento robusto en tareas complejas tradicionalmente reservadas para LLM mucho más grandes.


Mira el Smollm3-3b-base y Smollm3-3b-Instructo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeoy YouTube Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.