Los modelos de lenguaje grande (LLM) se han convertido en parte integral de diversas aplicaciones de inteligencia artificial, demostrando capacidades en el procesamiento del lenguaje natural, la toma de decisiones y las tareas creativas. Sin embargo, persisten desafíos críticos para comprender y predecir sus comportamientos. Tratar los LLM como cajas negras complica los esfuerzos para evaluar su confiabilidad, particularmente en contextos donde los errores pueden tener consecuencias significativas. Los enfoques tradicionales a menudo se basan en estados o gradientes del modelo interno para interpretar comportamientos, que no están disponibles para los modelos de código cerrado basados en API. Esta limitación plantea una pregunta importante: ¿cómo podemos evaluar eficazmente el comportamiento del LLM con sólo acceso a caja negra? El problema se ve agravado aún más por las influencias adversas y la posible tergiversación de los modelos a través de las API, lo que destaca la necesidad de soluciones sólidas y generalizables.
Para abordar estos desafíos, investigadores de la Universidad Carnegie Mellon han desarrollado QueRE (Elicitación de representación de preguntas). Este método está diseñado para LLM de caja negra y extrae representaciones independientes de las tareas y de baja dimensión consultando modelos con indicaciones de seguimiento sobre sus resultados. Estas representaciones, basadas en probabilidades asociadas con las respuestas provocadas, se utilizan para entrenar predictores del desempeño del modelo. En particular, QueRE tiene un rendimiento comparable o incluso mejor que algunas técnicas de caja blanca en términos de confiabilidad y generalización.
A diferencia de los métodos que dependen de los estados del modelo interno o de distribuciones de resultados completas, QueRE se basa en resultados accesibles, como las probabilidades top-k disponibles a través de la mayoría de las API. Cuando dichas probabilidades no están disponibles, pueden aproximarse mediante muestreo. Las características de QueRE también permiten evaluaciones como la detección de modelos influenciados por adversarios y la distinción entre arquitecturas y tamaños, lo que la convierte en una herramienta versátil para comprender y utilizar LLM.
Detalles técnicos y beneficios de QueRE
QueRE opera mediante la construcción de vectores de características derivados de preguntas de obtención planteadas al LLM. Para una entrada determinada y la respuesta del modelo, estas preguntas evalúan aspectos como la confianza y la corrección. Preguntas como «¿Confía en su respuesta?» o «¿Puedes explicar tu respuesta?» Permitir la extracción de probabilidades que reflejen el razonamiento del modelo.
Luego, las características extraídas se utilizan para entrenar predictores lineales para diversas tareas:
- Predicción de rendimiento: Evaluar si la salida de un modelo es correcta a nivel de instancia.
- Detección de adversario: Identificar cuándo las respuestas están influenciadas por mensajes maliciosos.
- Diferenciación de modelos: Distinguir entre diferentes arquitecturas o configuraciones, como identificar modelos más pequeños tergiversados como más grandes.
Al depender de representaciones de baja dimensión, QueRE admite una fuerte generalización entre tareas. Su simplicidad garantiza escalabilidad y reduce el riesgo de sobreajuste, lo que la convierte en una herramienta práctica para auditar e implementar LLM en diversas aplicaciones.
Resultados y conocimientos
Las evaluaciones experimentales demuestran la eficacia de QueRE en varias dimensiones. Al predecir el desempeño de LLM en tareas de respuesta a preguntas (QA), QueRE superó consistentemente las líneas de base basadas en estados internos. Por ejemplo, en puntos de referencia de control de calidad abiertos como SQuAD y Preguntas Naturales (NQ), QueRE logró un área bajo la curva característica operativa del receptor (AUROC) superior a 0,95. De manera similar, destacó en la detección de modelos influenciados por adversarios, superando a otros métodos de caja negra.
QueRE también demostró ser robusto y transferible. Sus características se aplicaron con éxito a tareas fuera de distribución y diferentes configuraciones de LLM, validando su adaptabilidad. Las representaciones de baja dimensión facilitaron el entrenamiento eficiente de modelos simples, asegurando viabilidad computacional y límites de generalización sólidos.
Otro resultado notable fue la capacidad de QueRE para utilizar secuencias aleatorias de lenguaje natural como indicaciones de obtención. Estas secuencias a menudo igualaron o superaron el rendimiento de las consultas estructuradas, destacando la flexibilidad del método y el potencial para diversas aplicaciones sin una extensa ingeniería manual.

Conclusión
QueRE ofrece un enfoque práctico y eficaz para comprender y optimizar los LLM de caja negra. Al transformar las respuestas de obtención en características procesables, QueRE proporciona un marco escalable y sólido para predecir el comportamiento del modelo, detectar influencias adversas y diferenciar arquitecturas. Su éxito en las evaluaciones empíricas sugiere que es una herramienta valiosa para investigadores y profesionales que buscan mejorar la confiabilidad y seguridad de los LLM.
Como AI A medida que los sistemas evolucionan, métodos como QueRE desempeñarán un papel crucial para garantizar la transparencia y la confiabilidad. El trabajo futuro podría explorar la posibilidad de ampliar la aplicabilidad de QueRE a otras modalidades o perfeccionar sus estrategias de obtención para mejorar el rendimiento. Por ahora, QueRE representa una respuesta reflexiva a los desafíos que plantean los sistemas de IA modernos.
Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.
🚨 Recomendar plataforma de código abierto: Parlant es un marco que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)
Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.