Principales repositorios de evaluación de modelos de lenguaje grandes (LLM) de código abierto

Garantizar la calidad y la estabilidad de los modelos de lenguaje grandes (LLM) es crucial en el panorama de los LLM en constante cambio. A medida que aumenta el uso de los LLM para una variedad de tareas, desde chatbots hasta creación de contenido, es fundamental evaluar su eficacia utilizando una variedad de KPI para proporcionar aplicaciones de calidad de producción.

En un tuit reciente se habló de cuatro repositorios de código abierto (DeepEval, OpenAI SimpleEvals, OpenAI Evals y RAGAs), cada uno de los cuales ofrece herramientas y marcos especiales para evaluar aplicaciones RAG y LLM. Con la ayuda de estos repositorios, los desarrolladores pueden mejorar sus modelos y asegurarse de que cumplan con los estrictos requisitos necesarios para las implementaciones prácticas.

  1. Evaluación profunda

Se creó un sistema de evaluación de código abierto llamado DeepEval para que el proceso de creación y refinamiento de aplicaciones LLM sea más eficiente. DeepEval facilita enormemente la realización de pruebas unitarias de los resultados de LLM de una manera similar a la del uso de Pytest para pruebas de software.

Una de las características más notables de DeepEval es su amplia biblioteca de más de 14 métricas evaluadas por LLM, la mayoría de las cuales están respaldadas por una investigación exhaustiva. Estas métricas lo convierten en una herramienta flexible para evaluar los resultados de LLM porque cubren varios criterios de evaluación, desde la fidelidad y la relevancia hasta la concisión y la coherencia. DeepEval también ofrece la capacidad de generar conjuntos de datos sintéticos mediante el uso de algunos excelentes algoritmos de evolución para proporcionar una variedad de conjuntos de pruebas difíciles.

En situaciones de producción, el componente de evaluación en tiempo real del marco es especialmente útil. Permite a los desarrolladores supervisar y evaluar continuamente el rendimiento de sus modelos a medida que los desarrollan. Gracias a las métricas extremadamente configurables de DeepEval, se puede adaptar para cumplir con casos de uso y objetivos individuales.

  1. Evaluaciones simples de OpenAI

OpenAI SimpleEvals es otro potente instrumento en la caja de herramientas para evaluar los LLM. OpenAI lanzó esta pequeña biblioteca como software de código abierto para aumentar la transparencia en las mediciones de precisión publicadas con sus modelos más nuevos, como GPT-4 Turbo. La incitación a la cadena de pensamiento y a la eliminación de errores es el principal objetivo de SimpleEvals, ya que se espera que proporcione una representación más realista del rendimiento del modelo en circunstancias del mundo real.

SimpleEvals pone énfasis en la simplicidad en comparación con muchos otros programas de evaluación que se basan en indicaciones de pocos intentos o juegos de rol. Este método tiene como objetivo evaluar las capacidades de los modelos de una manera sencilla y directa, brindando una idea de su utilidad práctica.

En el repositorio se encuentran disponibles diversas evaluaciones para diversas tareas, incluidas las pruebas de Google de preguntas y respuestas de nivel de posgrado (GPQA), la resolución de problemas matemáticos (MATH) y la comprensión masiva del lenguaje multitarea (MMLU). Estas evaluaciones ofrecen una base sólida para evaluar las habilidades de los estudiantes de LLM en una variedad de temas.

  1. Evaluaciones de OpenAI

OpenAI Evals ha proporcionado un marco más completo y adaptable para evaluar los LLM y los sistemas construidos sobre ellos. Con este enfoque, es especialmente fácil crear evaluaciones de alta calidad que tienen una gran influencia en el proceso de desarrollo, lo que resulta especialmente útil para quienes trabajan con modelos básicos como GPT-4.

La plataforma OpenAI Evals incluye una amplia colección de código abierto de evaluaciones difíciles que pueden utilizarse para probar muchos aspectos del rendimiento de LLM. Estas evaluaciones se pueden adaptar a casos de uso particulares, lo que facilita la comprensión de los posibles efectos de las distintas versiones del modelo o de las indicaciones en los resultados de la aplicación.

La capacidad de OpenAI Evals de integrarse con los procesos de CI/CD para realizar pruebas y validaciones continuas de los modelos antes de la implementación es una de sus principales características. Esto garantiza que el rendimiento de la aplicación no se verá afectado negativamente por ninguna actualización o modificación del modelo. OpenAI Evals también proporciona verificación de respuestas basada en lógica y calificación de modelos, que son los dos tipos principales de evaluación. Esta estrategia dual se adapta tanto a las tareas deterministas como a las consultas abiertas, lo que permite una evaluación más sofisticada de los resultados de LLM.

  1. RAGA

Se utiliza un marco especializado denominado RAGAs (evaluación RAG) para evaluar los pipelines de generación aumentada de recuperación (RAG), un tipo de aplicaciones LLM que agregan datos externos para mejorar el contexto del LLM. Si bien existen numerosas herramientas disponibles para crear pipelines de RAG, las RAGAs son únicas porque ofrecen un método sistemático para evaluar y medir su eficacia.

Con los RAGA, los desarrolladores pueden evaluar el texto generado por LLM utilizando las metodologías más actualizadas y con respaldo científico disponibles. Estos conocimientos son fundamentales para optimizar las aplicaciones RAG. La capacidad de los RAGA para producir artificialmente una variedad de conjuntos de datos de prueba es una de sus características más útiles; esto permite la evaluación exhaustiva del rendimiento de la aplicación.

Los RAGA facilitan métricas de evaluación asistidas por LLM, ofreciendo evaluaciones imparciales de elementos como la precisión y la pertinencia de las respuestas producidas. Proporcionan capacidades de monitoreo continuo para desarrolladores que utilizan canales RAG, lo que permite controles de calidad instantáneos en entornos de producción. Esto garantiza que los programas mantengan su estabilidad y confiabilidad a medida que cambian con el tiempo.

En conclusión, contar con las herramientas adecuadas para evaluar y mejorar los modelos es esencial para los LLM, donde el potencial de impacto es grande. Se puede encontrar un amplio conjunto de herramientas para evaluar los LLM y las aplicaciones RAG en los repositorios de código abierto DeepEval, OpenAI SimpleEvals, OpenAI Evals y RAGAs. Mediante el uso de estas herramientas, los desarrolladores pueden asegurarse de que sus modelos cumplan con los exigentes requisitos del uso en el mundo real, lo que en última instancia dará como resultado soluciones de IA más confiables y eficientes.


Tanya Malhotra es una estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, que cursa BTech en Ingeniería Informática con una especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con un buen pensamiento analítico y crítico, junto con un gran interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.