Meta AI anuncia Purple Llama para ayudar a la comunidad a construir éticamente con modelos de IA abiertos y generativos

Gracias al éxito en el aumento de los datos, el tamaño del modelo y la capacidad computacional para el modelado de lenguaje autorregresivo, los agentes de IA conversacional han sido testigos de un salto notable en capacidad en los últimos años. Los chatbots suelen utilizar modelos de lenguaje grandes (LLM), conocidos por sus muchas habilidades útiles, incluido el procesamiento del lenguaje natural, el razonamiento y el dominio de herramientas.

Estas nuevas aplicaciones necesitan pruebas exhaustivas e implementaciones cautelosas para reducir los peligros potenciales. En consecuencia, se recomienda que los productos impulsados ​​por IA generativa implementen salvaguardas para evitar la generación de contenido de alto riesgo que viole las políticas, así como para evitar entradas adversas e intentos de hacer jailbreak al modelo. Esto se puede ver en recursos como la Guía de uso responsable de Llama 2.

Perspective API1, OpenAI Content Moderation API2 y Azure Content Safety API3 son buenos lugares para comenzar a buscar herramientas para controlar el contenido en línea. Sin embargo, cuando se utilizan como barreras de seguridad de entrada/salida, estas tecnologías de moderación en línea fallan por varias razones. El primer problema es que actualmente no hay forma de diferenciar entre el usuario y el agente de IA con respecto a los peligros que representan; después de todo, los usuarios piden información y asistencia, mientras que es más probable que los agentes de IA la brinden. Además, los usuarios no pueden cambiar las herramientas para adaptarlas a las nuevas políticas porque todos tienen políticas establecidas que aplican. En tercer lugar, es imposible ajustarlos a casos de uso específicos porque cada herramienta simplemente ofrece acceso API. Finalmente, todas las herramientas existentes se basan en modelos de transformadores tradicionales y modestos. En comparación con los LLM más potentes, esto restringe gravemente su potencial.

Una nueva metainvestigación saca a la luz una herramienta para la protección de entradas y salidas que clasifica los peligros potenciales en las indicaciones y respuestas de los agentes de IA conversacionales. Esto satisface una necesidad en el campo al utilizar los LLM como base para la moderación.

Sus datos basados ​​en taxonomía se utilizan para ajustar Llama Guard, un modelo de protección de entrada-salida basado en regresión logística. Llama Guard toma la taxonomía relevante como insumo para clasificar las Llamas y aplica tareas de instrucción. Los usuarios pueden personalizar la entrada del modelo con indicaciones de disparo cero o de pocos disparos para adaptarse a diferentes taxonomías apropiadas para cada caso de uso. En el momento de la inferencia, se puede elegir entre varias taxonomías afinadas y aplicar Llama Guard en consecuencia.

Proponen pautas distintas para etiquetar los resultados del LLM (respuestas del modelo de IA) y las solicitudes humanas (entradas al LLM). Por lo tanto, Llama Guard puede capturar la diferencia semántica entre las responsabilidades del usuario y del agente. Utilizando la capacidad de los modelos LLM para obedecer órdenes, pueden lograrlo con un solo modelo.

También lanzaron Purple Llama. A su debido tiempo, será un proyecto general que recopilará recursos y evaluaciones para ayudar a la comunidad a construir éticamente con modelos de IA abiertos y generativos. Las herramientas y evaluaciones de ciberseguridad y salvaguardia de entradas/salidas serán parte de la primera versión, con más herramientas en camino.

Presentan el primer conjunto completo de evaluaciones de seguridad cibernética para LLM en la industria. Estas pautas se desarrollaron con sus especialistas en seguridad y se basan en recomendaciones y estándares de la industria (como CWE y MITRE ATT&CK). En este primer lanzamiento, esperan ofrecer recursos que puedan ayudar a mitigar algunos de los peligros mencionados en las promesas de la Casa Blanca de crear una IA responsable, como:

  • Métricas para cuantificar las amenazas a la ciberseguridad de LLM.
  • Herramientas para evaluar la prevalencia de propuestas de código inseguro.
  • Los instrumentos para evaluar los LLM dificultan la escritura de códigos maliciosos o ayudan a realizar ataques cibernéticos.

Anticipan que estos instrumentos disminuirán la utilidad de los LLM para los ciberatacantes al disminuir la frecuencia con la que proponen código inseguro generado por IA. Sus estudios encuentran que los LLM generan serios problemas de ciberseguridad cuando sugieren código inseguro o cooperan con solicitudes maliciosas.

Todas las entradas y salidas del LLM deben revisarse y filtrarse de acuerdo con las restricciones de contenido específicas de la aplicación, como se especifica en la Guía de uso responsable de Llama 2.

Este modelo se ha entrenado utilizando una combinación de conjuntos de datos disponibles públicamente para detectar categorías comunes de información potencialmente dañina o infractora que podría ser pertinente para diversos casos de uso de desarrolladores. Al hacer que los pesos de sus modelos estén disponibles públicamente, eliminan el requisito de que los profesionales e investigadores dependan de costosas API con ancho de banda limitado. Esto abre la puerta a una mayor experimentación y a la capacidad de adaptar Llama Guard a las necesidades individuales.


Revisar la Papel y Metaartículo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.