A medida que los modelos de aprendizaje profundo continúan creciendo, la cuantización de los modelos de aprendizaje automático se vuelve esencial, y la necesidad de técnicas de compresión efectivas se ha vuelto cada vez más relevante. La cuantización de baja bits es un método que reduce el tamaño del modelo mientras intenta retener la precisión. Los investigadores han estado determinando el mejor ancho de bits para maximizar la eficiencia sin comprometer el rendimiento. Varios estudios han explorado diferentes entornos de ancho de bits, pero han surgido conclusiones contradictorias debido a la ausencia de un marco de evaluación estandarizado. Esta búsqueda continua influye en el desarrollo de modelos de inteligencia artificial a gran escala, determinando su viabilidad para la implementación en entornos limitados por la memoria.

Un desafío importante en la cuantización de baja bits es identificar la compensación óptima entre la eficiencia computacional y la precisión del modelo. El debate sobre el cual el ancho de bits es más efectivo permanece sin resolver, y algunos argumentan que la cuantización de 4 bits proporciona el mejor equilibrio, mientras que otros afirman que los modelos de 1,58 bits pueden lograr resultados comparables. Sin embargo, la investigación previa ha carecido de una metodología unificada para comparar diferentes configuraciones de cuantización, lo que lleva a conclusiones inconsistentes. Esta brecha de conocimiento complica el establecimiento de leyes de escala confiables en la cuantización de precisión de baja bits. Además, lograr una capacitación estable en entornos de bits extremadamente bajos plantea un obstáculo técnico, ya que los modelos de bits más bajos a menudo experimentan cambios de representación significativos en comparación con las contrapartes de bits más altos.

Los enfoques de cuantización varían en su implementación y efectividad. Después de capacitar a un modelo con plena precisión, la cuantización posterior al entrenamiento (PTQ) aplica cuantización, lo que facilita la implementación pero propensa a la degradación de la precisión a bajos anchos de bits. La capacitación consciente de cuantización (QAT), por otro lado, integra la cuantización en el proceso de capacitación, lo que permite que los modelos se adapten a representaciones de baja bits de manera más efectiva. Se han explorado otras técnicas, como la cuantización aprendible y las estrategias de precisión mixta, se han explorado para ajustar el equilibrio entre precisión y tamaño del modelo. Sin embargo, estos métodos carecen de un marco universal para la evaluación sistemática, lo que dificulta la comparación de su eficiencia en diferentes condiciones.

Los investigadores de Meta han introducido Paretoq, un marco estructurado diseñado para unificar la evaluación de técnicas de cuantificación de sub-4 bits. Este marco permite comparaciones rigurosas en diferentes configuraciones de ancho de bits, incluidas cuantificación de 1 bits, 1.58 bits, 2 bits, 3 bits y 4 bits. Al refinar esquemas de entrenamiento y funciones de cuantización específicas de bits, Paretoq logra una mayor precisión y eficiencia sobre metodologías anteriores. A diferencia de los trabajos anteriores que optimizan de forma independiente para niveles de bits específicos, Paretoq establece un proceso de evaluación consistente que compara objetivamente las compensaciones de cuantización.

Paretoq emplea una estrategia de capacitación de cuantización optimizada para minimizar la pérdida de precisión mientras se mantiene la eficiencia de compresión del modelo. El marco refina las funciones de cuantización específicas de bits y adaptan las estrategias de capacitación para cada ancho de bits. Un hallazgo crítico de este estudio es la transición de aprendizaje distinta observada entre la cuantización de 2 y 3 bits. Los modelos entrenados a una precisión de 3 bits y las similitudes de representación de mayor mantenimiento con sus distribuciones originales previamente capacitadas, mientras que los modelos entrenados a 2 bits o más bajos experimentan cambios de representación drástica. Para superar este desafío, el marco optimiza sistemáticamente la cuadrícula de cuantización, la asignación de capacitación y las estrategias de aprendizaje específicas de bits.

Experimentos extensos confirman el rendimiento superior de Paretoq sobre los métodos de cuantización existentes. Un modelo ternario de 600 m-parámetro desarrollado utilizando Paretoq supera el modelo anterior del modelo 3b-parámetro de estado de estado en la precisión, al tiempo que utiliza solo una quinta parte de los parámetros. El estudio demuestra que la cuantización de 2 bits logra una mejora de precisión de 1.8 puntos porcentuales en un modelo comparable de 4 bits del mismo tamaño, estableciendo su viabilidad como alternativa a la cuantificación convencional de 4 bits. Además, Paretoq permite una implementación más amigable para el hardware, con núcleos de CPU optimizados de 2 bits que logran una mayor velocidad y eficiencia de memoria en comparación con la cuantización de 4 bits. Los experimentos también revelan que los modelos de cuantización ternaria, de 2 bits y 3 bits logran mejores compensaciones de tamaño de precisión que la cuantificación de 1 bits y 4 bits, lo que refuerza la importancia de los enfoques de sub-4 bits.

Los hallazgos de este estudio proporcionan una base sólida para optimizar la cuantización de baja bits en modelos de idiomas grandes. Al introducir un marco estructurado, la investigación aborda efectivamente los desafíos de las compensaciones de precisión y la optimización del ancho de bits. Los resultados indican que si bien la cuantización extrema de bajo bits es viable, la cuantificación de 2 bits y 3 bits actualmente ofrece el mejor equilibrio entre el rendimiento y la eficiencia. Los avances futuros en el soporte de hardware para el cálculo de bajo bits mejorarán aún más la practicidad de estas técnicas, lo que permitirá una implementación más eficiente de modelos de aprendizaje automático a gran escala en entornos limitados por recursos.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional’ (Promocionado)


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Por automata