Responsabilidad y seguridad
Nuestro completo punto de referencia y tabla de clasificación en línea ofrecen una medida muy necesaria de la precisión con la que los LLM fundamentan sus respuestas en el material fuente proporcionado y evitan alucinaciones.
Los modelos de lenguajes grandes (LLM) están transformando la forma en que accedemos a la información, pero su control de la precisión fáctica sigue siendo imperfecto. Pueden “alucinar” información falsa, especialmente cuando se les dan datos complejos. A su vez, esto puede erosionar la confianza en los LLM y limitar sus aplicaciones en el mundo real.
Hoy presentamos HECHOS Conexión a tierraun punto de referencia integral para evaluar la capacidad de los LLM para generar respuestas que no solo sean objetivamente precisas con respecto a las entradas dadas, sino también lo suficientemente detalladas como para proporcionar respuestas satisfactorias a las consultas de los usuarios.
Esperamos que nuestro punto de referencia estimule el progreso de toda la industria en materia de factibilidad y fundamento. Para seguir el progreso, también estamos lanzando el Tabla de clasificación de HECHOS en Kaggle. Ya hemos probado los LLM líderes utilizando FACTS Grounding y hemos completado la tabla de clasificación inicial con sus puntajes de puesta a tierra. Mantendremos y actualizaremos la tabla de clasificación a medida que avance el campo.
Clasificación actual de la clasificación
HECHOS Conjunto de datos de puesta a tierra
Para evaluar con precisión la factibilidad y fundamento de cualquier LLM determinado, el conjunto de datos FACTS Grounding comprende 1.719 ejemplos, cada uno cuidadosamente elaborado para requerir respuestas detalladas basadas en el documento de contexto proporcionado. Cada ejemplo comprende un documento, una instrucción del sistema que requiere que el LLM haga referencia exclusivamente al documento proporcionado y una solicitud de usuario adjunta.
Un ejemplo del conjunto de datos FACTS Grounding
Todos los ejemplos se dividen en un conjunto “público” (860) y un conjunto “privado” (859). Somos liberando el set público hoy para que cualquiera pueda usarlo para evaluar un LLM. Por supuesto, sabemos que es importante protegerse contra los problemas de contaminación de puntos de referencia y piratería de tablas de clasificación, por lo que, siguiendo la práctica estándar de la industria, mantenemos el conjunto de evaluación privada en reserva. Las puntuaciones de la tabla de clasificación de FACTS son el rendimiento promedio en conjuntos públicos y privados.
Para garantizar una diversidad de entradas, los ejemplos de FACTS Grounding incluyen documentos con una variedad de longitudes, hasta un máximo de 32.000 tokens (aproximadamente 20.000 palabras), que cubren dominios como finanzas, tecnología, comercio minorista, medicina y derecho. Las solicitudes de los usuarios son igualmente amplias e incluyen solicitudes de resúmenes, generación de preguntas y respuestas y tareas de reescritura. No incluimos ningún ejemplo que pudiera requerir creatividad, matemáticas o razonamiento complejo, capacidades que podrían requerir que el modelo aplique un razonamiento más avanzado además de la base.
Distribución inmediata
Juicio colectivo de los principales LLM
Para tener éxito en un ejemplo determinado, un LLM debe sintetizar la información compleja del documento y generar una respuesta de formato largo que sea a la vez una respuesta integral a la solicitud del usuario y totalmente atribuible a ese documento.
FACTS Grounding evalúa las respuestas del modelo automáticamente utilizando tres jueces LLM de vanguardia: Gemini 1.5 Pro, GPT-4o y Claude 3.5 Sonnet. Seleccionamos una combinación de diferentes jueces para mitigar cualquier posible sesgo de que un juez otorgue puntuaciones más altas a las respuestas producidas por un miembro de su propia familia modelo. Los modelos de jueces automáticos se evaluaron exhaustivamente comparándolos con un conjunto de pruebas para encontrar las plantillas de indicaciones de evaluación con mejor rendimiento y verificar la concordancia con los evaluadores humanos.
Cada ejemplo de FACTS Grounding se juzga en dos fases. Primero, se evalúa la elegibilidad de las respuestas y se descalifican si no abordan suficientemente la solicitud del usuario. En segundo lugar, las respuestas se consideran objetivamente precisas si están plenamente basadas en la información contenida en el documento proporcionado, sin alucinaciones.
Una vez que la elegibilidad y la precisión de la base de una determinada respuesta del LLM se evalúan por separado mediante múltiples modelos de jueces de IA, los resultados se agregan para determinar si el LLM ha abordado el ejemplo con éxito. La puntuación final de la tarea de fundamento general es el promedio de las puntuaciones de todos los modelos de jueces en todos los ejemplos. Encuentre más detalles de nuestra metodología de evaluación FACTS Grounding en nuestro periódico.
Una respuesta factualmente correcta que no aborda adecuadamente la solicitud del usuario no cumple con el ejemplo de evaluación comparativa. Aquí vemos tres casos de respuestas modelo que los jueces automatizados de LLM consideraron no elegibles.
HECHOS Grounding seguirá evolucionando
Somos conscientes de que los puntos de referencia pueden ser superados rápidamente con el progreso, por lo que este lanzamiento de nuestro punto de referencia y tabla de clasificación FACTS Grounding es solo el comienzo. La factualidad y la base se encuentran entre los factores clave que darán forma al éxito y la utilidad futuros de los LLM y los sistemas de inteligencia artificial más amplios, y nuestro objetivo es hacer crecer e iterar FACTS Grounding a medida que avanza el campo, elevando continuamente el listón.
Alentamos a la comunidad de IA a comprometerse con HECHOS Conexión a tierraevaluar sus modelos en el conjunto abierto de ejemplos o enviar sus modelos para evaluación. Creemos que los métodos integrales de evaluación comparativa, junto con la investigación y el desarrollo continuos, seguirán mejorando los sistemas de IA.
Expresiones de gratitud
HECHOS Grounding estuvo dirigido por: Alon Jacovi, Andrew Wang, Chris Alberti, Connie Tao, Dipanjan Das, Jon Lipovetz, Kate Olszewska, Lukas Haas, Michelle Liu y Nate Keating.
También estamos muy agradecidos por las contribuciones de: Adam Bloniarz, Carl Saroufim, Corey Fry, Dror Marcus, Doron Kukliansky, Gaurav Singh Tomar, James Swirhun, Jinwei Xing, Lily Wang, Madhu Gurumurthy, Michael Aaron, Moran Ambar, Rachana Fellinger, Rui Wang, Zizhao Zhang y Sasha Goldshtein.
También nos gustaría agradecer a Avinatan Hassidim, D. Sculley, Fernando Pereira, Koray Kavukcuoglu, Slav Petrov, Ya Xu y Yossi Matias por su continuo apoyo.