Screenshot 2024 03 27 At 1.06.03 Pm.png

En las redes sociales, el discurso tóxico puede extenderse como la pólvora y dirigirse a personas y grupos marginados. Si bien el odio explícito es relativamente fácil de detectar, la toxicidad implícita –que se basa en estereotipos y lenguaje codificado en lugar de calumnias abiertas– plantea un desafío más complicado. ¿Cómo entrenamos a los sistemas de IA no sólo para detectar esta toxicidad velada sino también para explicar por qué es dañina?

Investigadores de la Universidad Tecnológica de Nanyang, Singapur, la Universidad Nacional de Singapur y el Instituto de Investigación de Infocomm han abordado este problema con un marco novedoso llamado aXCL, cuya descripción general se muestra en la Figura 2. A diferencia de los sistemas anteriores que agrupaban la detección y la explicación en una tarea de generación de texto, ToXCL utiliza un enfoque de múltiples módulos, dividiendo el problema en pasos.

En primer lugar, está el Generador de grupos objetivo: un modelo de generación de texto que identifica los grupos minoritarios potencialmente objetivo de una publicación determinada. El siguiente es el modelo codificador-decodificador, que primero clasifica la publicación como tóxica o no tóxica utilizando su codificador. Si se marca como tóxico, el decodificador genera una explicación de por qué es problemático con la ayuda de la información del grupo objetivo.

Pero aquí viene lo inteligente: para reforzar las habilidades de detección del codificador, los investigadores incorporaron un potente clasificador de profesores. Utilizando la técnica de destilación de conocimientos, este modelo de profesor transmite su experiencia al codificador durante el entrenamiento, mejorando sus capacidades de clasificación.

Los investigadores también agregaron una restricción de decodificación condicional, un ingenioso truco que garantiza que el decodificador solo genere explicaciones para publicaciones clasificadas como tóxicas, eliminando resultados contradictorios.

Entonces, ¿cómo le fue? En dos importantes puntos de referencia de toxicidad implícita, ToXCL superó las líneas de base más modernas e incluso superó los modelos centrados únicamente en la detección o explicación. Los evaluadores humanos calificaron sus resultados mejor en cuanto a corrección, fluidez y menor nocividad en comparación con otros sistemas líderes.

Por supuesto, todavía hay margen de mejora. En ocasiones, el modelo puede tropezar con símbolos codificados o abreviaturas que requieren conocimiento externo. Y la naturaleza subjetiva de la toxicidad implícita significa que la explicación “correcta” suele ser multifacética. Pero en general, ToXCL marca un paso impresionante hacia sistemas de inteligencia artificial que puedan identificar el odio velado y articular sus impactos perniciosos. A medida que esta tecnología se desarrolla aún más, también debemos lidiar con los riesgos potenciales relacionados con el refuerzo de prejuicios o la generación de lenguaje tóxico. Pero si se tiene cuidado, ofrece un camino para empoderar las voces marginadas y frenar el discurso opresivo en línea. La búsqueda continúa.


Revisar la Papel y Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Vineet Kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en el Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en Deep Learning, Computer Vision y campos relacionados.