Zyphra ha anunciado el lanzamiento de Zamba2-mini 1.2Bun modelo de lenguaje pequeño de vanguardia diseñado específicamente para aplicaciones en dispositivos. Este nuevo modelo representa un logro histórico en IA, ya que combina un rendimiento de vanguardia con una eficiencia notable, todo dentro de un espacio de memoria compacto. El lanzamiento de Zamba2-mini está listo para transformar el panorama de la IA en dispositivos, ofreciendo a los desarrolladores e investigadores una herramienta poderosa para crear aplicaciones más receptivas, eficientes y capaces.
Rendimiento de última generación en un paquete compacto
Zamba2-mini es la última incorporación a la innovadora serie Zamba de Zyphra, que ha estado a la vanguardia del desarrollo de modelos de lenguaje pequeños. A pesar de su modesto tamaño, Zamba2-mini alcanza puntos de referencia de rendimiento que rivalizan con modelos mucho más grandes, incluidos pesos pesados de la industria como Gemma-2B de Google, SmolLM-1.7B de Huggingface, OpenELM-1.1B de Apple y Phi-1.5 de Microsoft. El rendimiento superior de Zamba2-mini es particularmente notable en tareas de inferencia, donde supera a sus competidores con un tiempo hasta el primer token dos veces más rápido, una reducción del 27% en la sobrecarga de memoria y una latencia de generación 1,29 veces menor en comparación con modelos como Phi3-3.8B.
Esta eficiencia se logra mediante una arquitectura altamente optimizada que combina las fortalezas de diferentes diseños de redes neuronales. En concreto, Zamba2-mini emplea una arquitectura híbrida que incorpora transformadores y elementos de red neuronal recurrente (RNN). Esta combinación permite a Zamba2-mini mantener la salida de alta calidad que normalmente se asocia con transformadores densos más grandes mientras opera con una eficiencia computacional y de memoria de un modelo mucho más pequeño. Dicha eficiencia hace que Zamba2-mini sea una solución ideal para aplicaciones de IA en dispositivos donde los recursos son limitados, pero aún se requiere un alto rendimiento.
Diseño arquitectónico innovador
Las innovaciones arquitectónicas detrás de Zamba2-mini son clave para su éxito. En esencia, Zamba2-mini utiliza una estructura de capas Mamba2 intercaladas con capas de atención compartida. Este diseño permite que el modelo asigne más parámetros a sus operaciones principales mientras minimiza el costo de los parámetros a través de bloques de atención compartida. Estos bloques se mejoran aún más al incorporar matrices de proyección LoRA, que brindan expresividad y especialización adicionales a cada capa sin aumentar significativamente el recuento general de parámetros del modelo.
Uno de los avances más importantes de Zamba2-mini en comparación con su predecesor, Zamba1, es la integración de dos capas de atención compartida en lugar de una, como se observa en la arquitectura Zamba original. Este enfoque de doble capa mejora la capacidad del modelo para mantener la información en toda su profundidad, lo que mejora el rendimiento general. La inclusión de incrustaciones de posición rotatoria en las capas de atención compartida ha mejorado ligeramente el rendimiento, lo que demuestra el compromiso de Zyphra con las mejoras incrementales pero impactantes en el diseño de modelos.
El régimen de entrenamiento del modelo también juega un papel importante en sus capacidades. Zamba2-mini fue entrenado previamente en un conjunto de datos masivo de tres billones de tokens de una combinación de Zyda y otras fuentes disponibles públicamente. Este extenso conjunto de datos fue filtrado y deduplicado rigurosamente para garantizar datos de entrenamiento de la más alta calidad, que se refinaron aún más durante una fase de “recocido” que implicó el entrenamiento en 100 mil millones de tokens de una calidad excepcionalmente alta. Este cuidadoso proceso de curación y entrenamiento ha dotado a Zamba2-mini de un nivel de rendimiento y eficiencia inigualable por otros modelos de tamaño similar.
Disponibilidad de código abierto y perspectivas futuras
Zyphra se ha comprometido a convertir a Zamba2-mini en un modelo de código abierto bajo la licencia Apache 2.0. Esta medida se alinea con la misión más amplia de la empresa de proporcionar acceso a tecnologías de IA avanzadas y fomentar la innovación en toda la industria. Al liberar los pesos del modelo de Zamba2-mini e integrarlo con plataformas como Huggingface, Zyphra permite a muchos desarrolladores, investigadores y empresas aprovechar las capacidades del modelo en sus proyectos.
Se espera que el lanzamiento de código abierto de Zamba2-mini estimule la investigación y el desarrollo de modelos de lenguaje eficientes. Zyphra ya se ha establecido como líder en la exploración de nuevas arquitecturas de IA, y el lanzamiento de Zamba2-mini refuerza su posición a la vanguardia de la industria. La empresa está ansiosa por colaborar con la comunidad de IA en general, invitando a otros a explorar la arquitectura única de Zamba y contribuir al avance de modelos básicos eficientes.
Conclusión
Zamba2-mini de Zyphra representa un hito importante en el desarrollo de modelos de lenguaje pequeños, en particular para aplicaciones en dispositivos donde la eficiencia y el rendimiento son primordiales. Con su arquitectura de vanguardia, su riguroso proceso de capacitación y su disponibilidad de código abierto, Zamba2-mini está preparado para convertirse en una herramienta clave para desarrolladores e investigadores que buscan impulsar lo que es posible con la IA en dispositivos.
Echa un vistazo a la Tarjeta modelo y DetallesTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.