Neural Magic lanza 2:4 Sparse Llama 3.1 8B: modelos más pequeños para una inferencia eficiente de GPU

El rápido crecimiento del tamaño de los modelos de IA ha traído consigo importantes desafíos computacionales y ambientales. Los modelos de aprendizaje profundo, en particular los modelos de lenguaje, se han expandido considerablemente en los últimos años, lo que exige más recursos para su capacitación e implementación. Este aumento de la demanda no sólo eleva los costos de infraestructura, sino que también contribuye a una creciente huella de carbono, lo que hace que la IA sea menos sostenible. Además, las empresas y los individuos más pequeños enfrentan una barrera de entrada cada vez mayor, ya que los requisitos computacionales están fuera de su alcance. Estos desafíos resaltan la necesidad de modelos más eficientes que puedan ofrecer un rendimiento sólido sin exigir una potencia informática prohibitiva.

Neural Magic ha respondido a estos desafíos lanzando Sparse Llama 3.1 8B, un modelo disperso compatible con GPU 2:4 y podado al 50 % que ofrece un rendimiento de inferencia eficiente. Sparse Llama, creado con SparseGPT, SquareHead Knowledge Distillation y un conjunto de datos de preentrenamiento seleccionado, tiene como objetivo hacer que la IA sea más accesible y respetuosa con el medio ambiente. Al requerir sólo 13 mil millones de tokens adicionales para la capacitación, Sparse Llama ha reducido significativamente las emisiones de carbono típicamente asociadas con la capacitación de modelos a gran escala. Este enfoque se alinea con la necesidad de la industria de equilibrar el progreso con la sostenibilidad y al mismo tiempo ofrecer un rendimiento confiable.

Detalles técnicos

Sparse Llama 3.1 8B aprovecha técnicas dispersas, que implican reducir los parámetros del modelo y al mismo tiempo preservar las capacidades predictivas. El uso de SparseGPT, combinado con SquareHead Knowledge Distillation, ha permitido a Neural Magic lograr un modelo podado en un 50 %, lo que significa que la mitad de los parámetros se han eliminado de forma inteligente. Esta poda da como resultado requisitos computacionales reducidos y una eficiencia mejorada. Sparse Llama también utiliza técnicas de cuantificación avanzadas para garantizar que el modelo pueda ejecutarse de manera efectiva en GPU manteniendo la precisión. Los beneficios clave incluyen una latencia hasta 1,8 veces menor y un 40 % mejor rendimiento solo gracias a la escasez, con el potencial de alcanzar una latencia 5 veces menor cuando se combina con la cuantificación, lo que hace que Sparse Llama sea adecuado para aplicaciones en tiempo real.

El lanzamiento de Sparse Llama 3.1 8B es un avance importante para la comunidad de IA. El modelo aborda los desafíos de eficiencia y sostenibilidad al tiempo que demuestra que no es necesario sacrificar el rendimiento por la economía computacional. Sparse Llama recupera una precisión del 98,4 % en Open LLM Leaderboard V1 para tareas de pocas tomas y ha mostrado una recuperación total de la precisión y, en algunos casos, un rendimiento mejorado en el ajuste fino de tareas de chat, generación de código y matemáticas. Estos resultados demuestran que la escasez y la cuantificación tienen aplicaciones prácticas que permiten a los desarrolladores e investigadores lograr más con menos recursos.

Conclusión

Sparse Llama 3.1 8B ilustra cómo la innovación en la compresión y cuantificación de modelos puede conducir a soluciones de IA más eficientes, accesibles y ambientalmente sostenibles. Al reducir la carga computacional asociada con modelos grandes y al mismo tiempo mantener un rendimiento sólido, Neural Magic ha establecido un nuevo estándar para equilibrar la eficiencia y la eficacia. Sparse Llama representa un paso adelante para hacer que la IA sea más equitativa y respetuosa con el medio ambiente, ofreciendo un vistazo a un futuro en el que modelos potentes sean accesibles a una audiencia más amplia, independientemente de los recursos informáticos.


Verificar los detalles y Modelo abrazando la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferencia virtual gratuita sobre GenAI con Meta, Mistral, Salesforce, Harvey AI y más. Únase a nosotros el 11 de diciembre en este evento virtual gratuito para aprender lo que se necesita para construir a lo grande con modelos pequeños de pioneros de la IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face y más.


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.