¿Es la IA multilingüe realmente segura?  Exponiendo las vulnerabilidades de los modelos de lenguajes grandes en lenguajes de bajos recursos

GPT-4 por defecto dice: “Lo siento, pero no puedo ayudar con eso” en respuesta a solicitudes que van en contra de políticas o restricciones éticas. La capacitación en seguridad y el equipo rojo son esenciales para evitar fallas de seguridad de la IA cuando se utilizan modelos de lenguaje grandes (LLM) en aplicaciones orientadas al usuario, como chatbots y herramientas de escritura. Las graves repercusiones sociales de los LLM que producen material negativo pueden incluir la difusión de información falsa, el fomento de la violencia y la destrucción de plataformas. Encuentran debilidades multilingües en los sistemas de seguridad que ya existen, a pesar de que desarrolladores como Meta y OpenAI han logrado avances en la minimización de los riesgos de seguridad. Descubren que todo lo que se necesita para eludir las protecciones y provocar reacciones negativas en GPT-4 es la simple traducción de entradas peligrosas a lenguajes naturales de bajos recursos utilizando Google Translate.

Investigadores de la Universidad de Brown demuestran que traducir entradas en inglés a idiomas de bajos recursos mejora la probabilidad de pasar el filtro de seguridad GPT-4 del 1% al 79% al comparar sistemáticamente 12 idiomas con varias configuraciones de recursos en AdvBenchmark. Además, muestran que su estrategia basada en la traducción coincide o incluso supera las técnicas de jailbreak de vanguardia, lo que sugiere una grave debilidad en las medidas de seguridad de GPT-4. Su trabajo contribuye de varias maneras. En primer lugar, destacan los efectos negativos del trato discriminatorio de la comunidad de formación en seguridad de IA y la valoración desigual de los idiomas, como se ve en la brecha entre la capacidad de los LLM para luchar contra los ataques de idiomas de altos y bajos recursos.

Además, su investigación muestra que la capacitación en alineación de seguridad actualmente disponible en GPT-4 debe generalizarse mejor en todos los idiomas, lo que lleva a un modo de falla de seguridad de generalización no coincidente con idiomas de bajos recursos. En segundo lugar, la realidad de su entorno multilingüe tiene sus raíces en su trabajo, lo que sustenta los sistemas de seguridad LLM. Alrededor de 1.200 millones de personas hablan idiomas de bajos recursos en todo el mundo. Por tanto, se deben tener en cuenta las medidas de seguridad. Incluso los malos actores que hablan idiomas de altos recursos pueden eludir fácilmente las precauciones actuales con poco esfuerzo a medida que los sistemas de traducción aumentan su cobertura de idiomas de bajos recursos.

Por último, pero no menos importante, su estudio destaca la urgente necesidad de adoptar un equipo rojo más integral e inclusivo. Centrarse únicamente en puntos de referencia centrados en el inglés puede crear la impresión de que el modelo es seguro. Todavía es vulnerable a agresiones en idiomas donde los datos sobre capacitación en seguridad no están ampliamente disponibles. Más importante aún, sus hallazgos también implican que los académicos aún tienen que apreciar la capacidad de los LLM para comprender y producir textos en idiomas de bajos recursos. Imploran a la comunidad de seguridad que construya barreras de seguridad sólidas para la IA con una cobertura lingüística ampliada y conjuntos de datos de equipos rojos multilingües que abarquen idiomas de bajos recursos.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.