Salesforce AI Introduce Bingoguard: un sistema de moderación basado en LLM diseñado para predecir tanto las etiquetas de seguridad binarias como los niveles de gravedad

El avance de los modelos de idiomas grandes (LLM) ha influido significativamente en las tecnologías interactivas, presentando beneficios y desafíos. Un problema destacado que surge de estos modelos es su potencial para generar contenido dañino. Los sistemas de moderación tradicionales, que generalmente emplean clasificaciones binarias (seguras versus inseguras), carecen de la granularidad necesaria para distinguir los niveles variables de daños de manera efectiva. Esta limitación puede conducir a una moderación excesivamente restrictiva, disminuir la interacción del usuario o un filtrado inadecuado, lo que podría exponer a los usuarios al contenido dañino.

Salesforce AI presenta a Bingoguard, un sistema de moderación basado en LLM diseñado para abordar las deficiencias de la clasificación binaria mediante la predicción de las etiquetas de seguridad binarias y los niveles de gravedad detallados. Bingoguard utiliza una taxonomía estructurada, clasificando contenido potencialmente dañino en once áreas específicas, que incluyen delitos violentos, contenido sexual, blasfemias, invasión de privacidad y contenido relacionado con armas. Cada categoría incorpora cinco niveles de gravedad claramente definidos que van desde benignos (nivel 0) hasta riesgo extremo (nivel 4). Esta estructura permite a las plataformas calibrar su configuración de moderación con precisión de acuerdo con sus pautas de seguridad específicas, asegurando una gestión de contenido adecuada en contextos de gravedad variables.

Desde una perspectiva técnica, Bingoguard emplea una metodología de “generar el filtro” para ensamblar su conjunto de datos de capacitación integral, Bingoguardtrain, que consta de 54,897 entradas que abarcan múltiples niveles de gravedad y estilos de contenido. Este marco inicialmente genera respuestas adaptadas a diferentes niveles de gravedad, luego filtrando estas salidas para garantizar la alineación con los estándares definidos de calidad y relevancia. Los LLM especializados se someten a procesos individuales de ajuste fino para cada nivel de gravedad, utilizando conjuntos de datos de semillas cuidadosamente seleccionados y auditados por expertos. Este ajuste fino garantiza que las salidas generadas se adhieren estrechamente a las rúbricas de gravedad predefinidas. El modelo de moderación resultante, Bingoguard-8B, aprovecha este conjunto de datos meticulosamente curado, lo que permite una diferenciación precisa entre varios grados de contenido dañino. En consecuencia, la precisión y la flexibilidad de la moderación mejoran significativamente.

Las evaluaciones empíricas de Bingoguard indican un fuerte rendimiento. Las pruebas contra BingoGuardTest, un conjunto de datos marcado con expertos que comprende 988 ejemplos, reveló que Bingoguard-8B alcanza una mayor precisión de detección que los principales modelos de moderación como WildGuard y Shieldgemma, con mejoras de hasta 4.3%. En particular, Bingoguard demuestra una precisión superior en la identificación del contenido de baja severidad (niveles 1 y 2), tradicionalmente difícil para los sistemas de clasificación binaria. Además, los análisis en profundidad descubrieron una correlación relativamente débil entre las probabilidades “inseguras” predichas y el nivel de gravedad real, lo que subraya la necesidad de incorporar explícitamente las distinciones de gravedad. Estos hallazgos ilustran las brechas fundamentales en los métodos de moderación actuales que dependen principalmente de clasificaciones binarias.

En conclusión, Bingoguard mejora la precisión y efectividad de la moderación de contenido impulsada por la IA mediante la integración de evaluaciones de gravedad detalladas junto con evaluaciones de seguridad binarias. Este enfoque permite a las plataformas manejar la moderación con mayor precisión y sensibilidad, minimizando los riesgos asociados con estrategias de moderación demasiado cautelosas e insuficientes. El bingoguard de Salesforce proporciona un marco mejorado para abordar las complejidades de la moderación del contenido dentro de interacciones generadas por IA cada vez más sofisticadas.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre código abierto AI: Registro gratuito + Certificado de Asistencia + Evento corto de 3 horas (12 de abril, 9 a.m. a 12 p.m. PST) + Hands on Workshop [Sponsored]


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.