El rápido crecimiento de las plataformas digitales ha puesto de relieve la seguridad de las imágenes. Las imágenes dañinas, que van desde contenido explícito hasta representaciones de violencia, plantean desafíos importantes para la moderación del contenido. La proliferación de contenido generado por IA (AIGC) ha exacerbado estos desafíos, ya que los modelos avanzados de generación de imágenes pueden crear fácilmente imágenes inseguras. Los sistemas de seguridad actuales dependen en gran medida de conjuntos de datos etiquetados por humanos, que son costosos y difíciles de escalar. Además, estos sistemas a menudo tienen dificultades para adaptarse a directrices de seguridad complejas y en constante evolución. Una solución eficaz debe abordar estas limitaciones y al mismo tiempo garantizar evaluaciones de seguridad de imágenes eficientes y confiables.
Investigadores de Meta, la Universidad de Rutgers, la Universidad de Westlake y la UMass Amherst han desarrollado CLUE (Constitutional MLLM JUdgE), un marco diseñado para abordar las deficiencias de los sistemas tradicionales de seguridad de imágenes. CLUE utiliza multimodal Modelos de lenguaje grandes (MLLM) para convertir las reglas subjetivas de seguridad en criterios objetivos y mensurables. Las características clave del marco incluyen:
- Cosificación de la Constitución: Convertir reglas de seguridad subjetivas en pautas claras y viables para un mejor procesamiento por parte de los MLLM.
- Comprobaciones de relevancia de imagen y regla: Aprovechar CLIP para filtrar de manera eficiente reglas irrelevantes mediante la evaluación de la relevancia entre imágenes y pautas.
- Extracción de condiciones previas: Dividir reglas complejas en cadenas de condiciones previas simplificadas para facilitar el razonamiento.
- Análisis de probabilidad de tokens desesgados: Mitigar los sesgos causados por lenguajes anteriores y regiones de imagen no centrales para mejorar la objetividad.
- Razonamiento en cascada: Emplear un razonamiento de cadena de pensamiento más profundo para casos con poca confianza para mejorar la precisión en la toma de decisiones.
Detalles técnicos y beneficios
El marco CLUE aborda los desafíos clave asociados con los MLLM en la seguridad de las imágenes. Al objetivar las reglas de seguridad, reemplaza pautas ambiguas con criterios precisos, como especificar que “no se debe representar a personas con heridas visibles y sangrientas que indiquen una muerte inminente”.
El escaneo de relevancia utilizando CLIP agiliza el proceso al eliminar reglas irrelevantes para la imagen inspeccionada, lo que reduce la carga computacional. Esto garantiza que el marco se centre únicamente en las reglas pertinentes, mejorando la eficiencia.
El módulo de extracción de condiciones previas simplifica reglas complejas en componentes lógicos, lo que permite a los MLLM razonar de manera más efectiva. Por ejemplo, una regla como “no debe representar a ninguna persona cuyos cuerpos estén en llamas” se descompone en condiciones como “las personas son visibles” y “los cuerpos están en llamas”.
El análisis de probabilidad de tokens desesgado es otra característica notable. Al comparar las probabilidades de los tokens con y sin tokens de imágenes, se identifican y minimizan los sesgos. Esto reduce la probabilidad de errores, como asociar elementos de fondo con infracciones.
El mecanismo de razonamiento en cascada proporciona un sólido respaldo para escenarios de baja confianza. Utilizando un razonamiento lógico paso a paso, garantiza evaluaciones precisas, incluso para casos límite, al tiempo que ofrece justificaciones detalladas para las decisiones.
Resultados experimentales y conocimientos
La eficacia de CLUE se ha validado mediante pruebas exhaustivas en varias arquitecturas MLLM, incluidas InternVL2-76B, Qwen2-VL-7B-Instruct y LLaVA-v1.6-34B. Los hallazgos clave incluyen:
- Precisión y recuperación: CLUE logró un 95,9 % de recuperación y un 94,8 % de precisión con InternVL2-76B, superando a los métodos existentes.
- Eficiencia: El módulo de escaneo de relevancia filtró el 67% de las reglas irrelevantes y retuvo el 96,6% de las reglas violadas, lo que mejoró significativamente la eficiencia computacional.
- Generalizabilidad: A diferencia de los modelos perfeccionados, CLUE tuvo un buen desempeño en diversas pautas de seguridad, lo que destaca su escalabilidad.
Las ideas también enfatizan la importancia de la objetivación de la constitución y el análisis desesgado de la probabilidad simbólica. Las reglas objetivadas lograron una tasa de precisión del 98,0 % en comparación con el 74,0 % de sus contrapartes originales, lo que subraya el valor de criterios claros y mensurables. De manera similar, la eliminación de sesgos mejoró la precisión general del juicio, con una puntuación F1 de 0,879 para el modelo InternVL2-8B-AWQ.
Conclusión
CLUE ofrece un enfoque reflexivo y eficiente para la seguridad de las imágenes, abordando las limitaciones de los métodos tradicionales aprovechando los MLLM. Al transformar reglas subjetivas en criterios objetivos, filtrar reglas irrelevantes y utilizar mecanismos de razonamiento avanzados, CLUE proporciona soluciones confiables y escalables para la moderación de contenido. Su capacidad para ofrecer alta precisión y adaptabilidad lo convierte en un avance significativo en la gestión de los desafíos del contenido generado por IA, allanando el camino para plataformas en línea más seguras.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.
🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluación–Únase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.