En los últimos años, el aumento de los grandes modelos de lenguaje (LLM) ha transformado significativamente la forma en que abordamos las tareas de procesamiento del lenguaje natural. Sin embargo, estos avances no están exentos de inconvenientes. El uso generalizado de LLM masivos como GPT-4 y LLaMA de Meta ha revelado sus limitaciones en lo que respecta a la eficiencia de los recursos. Estos modelos, a pesar de sus impresionantes capacidades, a menudo exigen una potencia computacional y una memoria sustanciales, lo que los hace inadecuados para muchos usuarios, en particular aquellos que desean implementar modelos en dispositivos como teléfonos inteligentes o dispositivos periféricos con recursos limitados. Ejecutar estos LLM masivos localmente es una tarea costosa, tanto en términos de requisitos de hardware como de consumo de energía. Esto ha creado una clara brecha en el mercado para modelos más pequeños y más eficientes que puedan ejecutarse en el dispositivo y al mismo tiempo ofrecer un rendimiento sólido.
En respuesta a este desafío, Hugging Face ha lanzado SmolLM2—una nueva serie de modelos pequeños optimizados específicamente para aplicaciones en el dispositivo. SmolLM2 se basa en el éxito de su predecesor, SmolLM1, al ofrecer capacidades mejoradas sin dejar de ser liviano. Estos modelos vienen en tres configuraciones: parámetros 0.1B, 0.3B y 1.7B. Su principal ventaja es la capacidad de operar directamente en dispositivos sin depender de una infraestructura a gran escala basada en la nube, lo que abre oportunidades para una variedad de casos de uso donde la latencia, la privacidad y las limitaciones de hardware son factores importantes. Los modelos SmolLM2 están disponibles bajo la licencia Apache 2.0, lo que los hace accesibles a una amplia audiencia de desarrolladores e investigadores.
SmolLM2 está diseñado para superar las limitaciones de los LLM grandes al ser compacto y versátil. Capacitados con 11 billones de tokens de conjuntos de datos como FineWeb-Edu, DCLM y Stack, los modelos SmolLM2 cubren una amplia gama de contenido, centrándose principalmente en texto en inglés. Cada versión está optimizada para tareas como reescritura de texto, resumen y llamada de funciones, lo que las hace adecuadas para una variedad de aplicaciones, particularmente para entornos en dispositivos donde la conectividad a los servicios en la nube puede ser limitada. En términos de rendimiento, SmolLM2 supera a Meta Llama 3.2 1B y en algunos puntos de referencia, como Qwen2.5 1B, ha mostrado resultados superiores.
La familia SmolLM2 incluye técnicas avanzadas de posentrenamiento, incluido el ajuste fino supervisado (SFT) y la optimización de preferencias directas (DPO), que mejoran la capacidad de los modelos para manejar instrucciones complejas y proporcionar respuestas más precisas. Además, su compatibilidad con marcos como llama.cpp y Transformers.js significa que pueden ejecutarse de manera eficiente en el dispositivo, ya sea usando procesamiento de CPU local o dentro de un entorno de navegador, sin la necesidad de GPU especializadas. Esta flexibilidad hace que SmolLM2 sea ideal para aplicaciones de IA de vanguardia, donde la baja latencia y la privacidad de los datos son cruciales.
El lanzamiento de SmolLM2 marca un importante paso adelante para hacer que los LLM potentes sean accesibles y prácticos para una gama más amplia de dispositivos. A diferencia de su predecesor, SmolLM1, que enfrentaba limitaciones en el seguimiento de instrucciones y el razonamiento matemático, SmolLM2 muestra mejoras significativas en estas áreas, especialmente en la versión de parámetros 1.7B. Este modelo no solo destaca en tareas comunes de PNL, sino que también admite funcionalidades más avanzadas, como llamadas a funciones, una característica que lo hace particularmente útil para asistentes de codificación automatizados o aplicaciones personales de inteligencia artificial que necesitan integrarse perfectamente con el software existente.
Los resultados de referencia subrayan las mejoras realizadas en SmolLM2. Con una puntuación de 56,7 en IFEval, 6,13 en MT Bench, 19,3 en MMLU-Pro y 48,2 en GMS8k, SmolLM2 demuestra un rendimiento competitivo que a menudo iguala o supera al modelo Meta Llama 3.2 1B. Además, su arquitectura compacta le permite funcionar eficazmente en entornos donde los modelos más grandes no serían prácticos. Esto hace que SmolLM2 sea especialmente relevante para industrias y aplicaciones donde los costos de infraestructura son una preocupación o donde la necesidad de procesamiento en el dispositivo en tiempo real tiene prioridad sobre las capacidades centralizadas de IA.
SmolLM2 ofrece un alto rendimiento en un formato compacto adecuado para aplicaciones en el dispositivo. Con tamaños que van desde 135 millones a 1,7 mil millones de parámetros, SmolLM2 brinda versatilidad sin comprometer la eficiencia y la velocidad para la computación de vanguardia. Maneja la reescritura de texto, el resumen y las llamadas a funciones complejas con un razonamiento matemático mejorado, lo que la convierte en una solución rentable para la IA en el dispositivo. A medida que los modelos de lenguaje pequeño ganan importancia para las aplicaciones sensibles a la latencia y la privacidad, SmolLM2 establece un nuevo estándar para la PNL en el dispositivo.
Mira el Serie de modelos aquí. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[Trending] LLMWare presenta Model Depot: una amplia colección de modelos de lenguaje pequeño (SLM) para PC Intel
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.