El dominio de la cuantificación del modelo de lenguaje grande (LLM) ha llamado la atención debido a su potencial para hacer que las potentes tecnologías de IA sean más accesibles, especialmente en entornos donde los recursos computacionales son escasos. Al reducir la carga computacional necesaria para ejecutar estos modelos, la cuantificación garantiza que la IA avanzada pueda emplearse en una gama más amplia de escenarios prácticos sin sacrificar el rendimiento.
Los grandes modelos tradicionales requieren recursos sustanciales, lo que impide su implementación en entornos menos equipados. Por lo tanto, es crucial desarrollar y perfeccionar técnicas de cuantificación, métodos que comprimen los modelos para requerir menos recursos computacionales sin una pérdida significativa de precisión.
Se emplean varias herramientas y puntos de referencia para evaluar la efectividad de diferentes estrategias de cuantificación en los LLM. Estos puntos de referencia abarcan un amplio espectro, incluidos conocimientos generales y tareas de razonamiento en diversos campos. Evalúan modelos en escenarios de tiro cero y de pocos tiros, examinando qué tan bien se desempeñan estos modelos cuantificados en diferentes tipos de tareas cognitivas y analíticas sin ajustes extensos o con un aprendizaje mínimo basado en ejemplos, respectivamente.
Los investigadores de Intel presentaron el Tabla de clasificación de LLM abierta cuantificada de bits bajos en Abrazar la cara. Esta tabla de clasificación proporciona una plataforma para comparar el rendimiento de varios modelos cuantificados utilizando un marco de evaluación coherente y riguroso. Hacerlo permite a los investigadores y desarrolladores medir el progreso en el campo de manera más efectiva y determinar qué métodos de cuantificación producen el mejor equilibrio entre eficiencia y eficacia.
El método empleado implica pruebas rigurosas a través de Arnés de evaluación del modelo de lenguaje AI de Eleuther, que ejecuta modelos a través de una batería de tareas diseñadas para probar varios aspectos del rendimiento del modelo. Las tareas incluyen comprender y generar respuestas humanas basadas en indicaciones dadas, resolución de problemas en materias académicas como matemáticas y ciencias, y discernimiento de verdades en escenarios de preguntas complejas. Los modelos se califican en función de la precisión y fidelidad de sus resultados en comparación con las respuestas humanas esperadas.
Diez puntos de referencia clave utilizados para evaluar modelos en el Arnés de evaluación del modelo de lenguaje AI de Eleuther:
- Desafío de razonamiento AI2 (disparo 0): Este conjunto de preguntas de ciencias para la escuela primaria presenta un conjunto de desafío de 2590 preguntas “difíciles” que tanto los métodos de recuperación como los de coocurrencia generalmente no logran responder correctamente.
- AI2 Razonamiento fácil (disparo 0): Esta es una colección de preguntas científicas más sencillas para la escuela primaria, con un Easy Set que comprende 5197 preguntas.
- HellaSwag (0 disparos): Prueba la inferencia de sentido común, que es sencilla para los humanos (aproximadamente 95 % de precisión), pero resulta desafiante para los modelos de última generación (SOTA).
- MMLU (0 disparos): Evalúa la precisión de múltiples tareas de un modelo de texto en 57 tareas diversas, incluidas matemáticas elementales, historia de EE. UU., informática, derecho y más.
- VerazQA (disparo 0): Mide la tendencia de un modelo a replicar falsedades en línea. Técnicamente es una tarea de 6 disparos porque cada ejemplo comienza con seis pares de preguntas y respuestas.
- Winogrande (0 tiros): Un desafío de razonamiento contradictorio de sentido común a escala, diseñado para que sea difícil de navegar para los modelos.
- PIQA (disparo 0): Se centra en el razonamiento físico de sentido común, evaluando modelos utilizando un conjunto de datos de referencia específico.
- Lambada_Openai (0 disparos): Un conjunto de datos que evalúa las capacidades de comprensión de textos de los modelos computacionales a través de una tarea de predicción de palabras.
- OpenBookQA (0 disparos): Un conjunto de datos de respuesta a preguntas que imita los exámenes a libro abierto para evaluar la comprensión humana de diversos temas.
- BoolQ (disparo 0): Una tarea de respuesta a preguntas donde cada ejemplo consta de un breve pasaje seguido de una pregunta binaria de sí/no.
En conclusión, estos puntos de referencia evalúan colectivamente una amplia gama de habilidades de razonamiento y conocimientos generales en entornos de cero y pocos disparos. Los resultados de la tabla de clasificación muestran una amplia gama de desempeño en diferentes modelos y tareas. Los modelos optimizados para ciertos tipos de razonamiento o áreas de conocimiento específicas a veces tienen dificultades con otras tareas cognitivas, lo que resalta las compensaciones inherentes a las técnicas de cuantificación actuales. Por ejemplo, si bien algunos modelos pueden sobresalir en la comprensión narrativa, pueden tener un rendimiento inferior en áreas con gran cantidad de datos, como la estadística o el razonamiento lógico. Estas discrepancias son fundamentales para guiar el diseño de modelos futuros y las mejoras en los enfoques de capacitación.
Fuentes:
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.