Comprender los límites de la transparencia del modelo de lenguaje
A medida que los modelos de idiomas grandes (LLM) se vuelven fundamentales para un número creciente de aplicaciones, desde el apoyo de la decisión empresarial hasta la educación y la investigación científica, la necesidad de comprender su toma de decisiones interna se vuelve más apremiante. Queda un desafío central: ¿cómo podemos determinar de dónde proviene la respuesta de un modelo? La mayoría de los LLM están capacitados en conjuntos de datos masivos que consisten en billones de tokens, sin embargo, no ha habido una herramienta práctica para mapear las salidas del modelo a los datos que los dieron forma. Esta opacidad complica los esfuerzos para evaluar la confiabilidad, rastrear los orígenes objetivos e investigar posibles memorización o sesgo.
Olmotrace: una herramienta para el rastreo de salida en tiempo real
El Instituto Allen para AI (AI2) introdujo recientemente Olmotráticaun sistema diseñado para rastrear segmentos de respuestas generadas por LLM a sus datos de entrenamiento en tiempo real. El sistema está construido sobre los modelos OLMO de código abierto de AI2 y proporciona una interfaz para identificar superposiciones lumbar entre el texto generado y los documentos utilizados durante el entrenamiento del modelo. A diferencia de la generación de recuperación auggada (TRAPO) Enfoques, que inyectan un contexto externo durante la inferencia, Olmotrace está diseñado para la interpretabilidad post-hoc: identifica las conexiones entre el comportamiento del modelo y la exposición previa durante el entrenamiento.
Olmotrace está integrado en el patio de juegos AI2, donde los usuarios pueden examinar los tramos específicos en una salida de LLM, ver documentos de capacitación coincidentes e inspeccionar esos documentos en un contexto extendido. El sistema admite modelos OLMO que incluyen el instrucciones OLMO-2-32B y aprovecha sus datos de entrenamiento completos, más de 4.6 billones de tokens en 3.200 millones de documentos.
Consideraciones de arquitectura técnica y diseño
En el corazón de Olmotrace está infini-gramun motor de indexación y búsqueda creado para corpus de texto a escala extrema. El sistema utiliza una estructura basada en la matriz de sufijo para buscar eficientemente los tramos exactos de las salidas del modelo en los datos de capacitación. La tubería de inferencia central comprende cinco etapas:
- Identificación del tramo: Extrae todos los tramos máximos de la salida de un modelo que coinciden con secuencias literales en los datos de entrenamiento. El algoritmo evita los tramos incompletos, demasiado comunes o anidados.
- Filtrado de la trama: Los rangos se extienden en función de la «probabilidad unigram», que prioriza frases más largas y menos frecuentes, como un proxy de la información.
- Recuperación de documentos: Para cada tramo, el sistema recupera hasta 10 documentos relevantes que contienen la frase, equilibrando la precisión y el tiempo de ejecución.
- Fusión: Consolida los tramos y duplicados superpuestos para reducir la redundancia en la interfaz de usuario.
- Ranking de relevancia: Aplica la puntuación BM25 para clasificar los documentos recuperados en función de su similitud con el aviso y la respuesta originales.
Este diseño asegura que los resultados del rastreo no solo sean precisos, sino que también aparecen dentro de una latencia promedio de 4.5 segundos para una salida de modelo de 450 token. Todo el procesamiento se realiza en nodos basados en CPU, utilizando SSD para acomodar los grandes archivos de índice con acceso de baja latencia.
Evaluación, información y casos de uso
AI2 Benchmarsed Olmotrace utilizando 98 conversaciones generadas por 98 LLM del uso interno. La relevancia del documento fue calificada tanto por anotadores humanos como por un evaluador «LLM-As-A-A-Judge» basado en modelo (GPT-4O). El documento mejor recuperado recibió un puntaje de relevancia promedio de 1.82 (en una escala 0–3), y los 5 documentos superiores promediaron 1.50, indicando una alineación razonable entre la salida del modelo y el contexto de entrenamiento recuperado.
Tres casos de uso ilustrativo demuestran la utilidad del sistema:
- Verificación de hechos: Los usuarios pueden determinar si una declaración objetiva probablemente se memorizó a partir de los datos de capacitación inspeccionando sus documentos fuente.
- Análisis de expresión creativa: Incluso el lenguaje aparentemente novedoso o estilizado (por ejemplo, frases similares a Tolkien) a veces se remonta a fan ficción o muestras literarias en el corpus de entrenamiento.
- Razonamiento matemático: Olmotrace puede superficie de las coincidencias exactas para los pasos de cálculo simbólicos o ejemplos estructurados de resolución de problemas, arrojando luz sobre cómo los LLM aprenden tareas matemáticas.
Estos casos de uso destacan el valor práctico de los resultados del modelo de rastreo para capacitar datos en la comprensión de la memorización, la procedencia de datos y el comportamiento de generalización.
Implicaciones para modelos abiertos y auditoría de modelos
Olmotrace subraya la importancia de la transparencia en el desarrollo de LLM, particularmente para los modelos de código abierto. Si bien la herramienta solo superficie las coincidencias léxicas y no las relaciones causales, proporciona un mecanismo concreto para investigar cómo y cuándo los modelos de lenguaje reutilizan el material de capacitación. Esto es especialmente relevante en contextos que involucran cumplimiento, auditoría de derechos de autor o garantía de calidad.
La base de código abierto del sistema, construido bajo la licencia Apache 2.0, también invita a una mayor exploración. Los investigadores pueden extenderlo para aproximar técnicas de coincidencia o influencia, mientras que los desarrolladores pueden integrarlo en tuberías de evaluación LLM más amplias.
En un paisaje donde el comportamiento del modelo a menudo es opaco, Olmotrace establece un precedente para los LLMS inspeccionables y con datos, elaboración de la barra para la transparencia en el desarrollo y la implementación del modelo
Verificar Papel y Patio de juegos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit. Nota:
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.