¿La seguridad puede mantenerse al día con las LLM en tiempo real? El equipo Qwen de Alibaba piensa que sí, y acaba de enviar QWen3Guard, una familia de modelos de barandilla multilingüe construida con indicaciones moderadas y respuestas de transmisión en tiempo real.
QWEN3GUARD viene en dos variantes: QWEN3Guard-Gen (un clasificador generativo que lee el contexto completo de inmediato/respuesta) y QWEN3Guard-stream (un clasificador de nivel de token que modera como texto se genera). Ambos se lanzan en tamaños de parámetros de 0.6b, 4B y 8B y se dirigen a implementaciones globales con cobertura para 119 idiomas y dialectos. Los modelos son de código abierto, con pesas en la cara abrazada y el repositorio de GitHub.
¿Qué hay de nuevo?
Cabezal de moderación de transmisión: la corriente adjunta dos cabezales de clasificación livianos a la capa final del transformador: uno monitorea la solicitud del usuario, la otra puntuación generó token en tiempo real como segura / controvertida / insegura. Esto permite la aplicación de políticas mientras se produce una respuesta, en lugar del filtrado post-hoc. Semántica de riesgo de tres niveles: más allá de las etiquetas binarias seguras/inseguras, un nivel controvertido admite la rigor ajustable (endurecimiento/aflojamiento binario) en conjuntos de datos y políticas, útil cuando el contenido “límite” debe ser enrutado o escalado, no simplemente caído. Salidas estructuradas para Gen: La variante generativa emite un encabezado estándar: seguridad: …, categorías: …, rechazo: … … Eso es trivial para analizar tuberías y funciones de recompensa RL. Las categorías incluyen actos ilegales violentos y no violentos, contenido sexual, PII, suicidio y autolesión, actos poco éticos, temas políticamente sensibles, violación de derechos de autor, jailbreak.
Puntos de referencia y seguridad RL
El equipo de investigación de Qwen muestra los puntos de referencia de seguridad en inglés, chino y multilingüe para la clasificación rápida y de respuesta, con datos trazados para QWen3Guard-Gen versus modelos abiertos anteriores. Si bien el equipo de investigación enfatiza las ganancias relativas en lugar de una sola métrica compuesta, el plomo constante en la configuración es el punto clave.
Para capacitar a los asistentes aguas abajo, el equipo de investigación prueba RL impulsado por la seguridad utilizando QWEN3Guard-Gen como señal de recompensa. Una recompensa de solo guardia maximiza la seguridad, pero los rechazos y la tasa de victorias de victorias arenadas ligeramente arenadas; Una recompensa híbrida (penalizando los refusales excesivos, combinando señales de calidad) levanta el puntaje de seguridad medido por WildGuard de ~ 60 a> 97 sin degradar las tareas de razonamiento, e incluso empuja a Arena-Hard-V2 hacia arriba. Esta es una receta práctica para equipos que vieron la recompensa previa que modificó el colapso en el comportamiento de “rechazo de todo”.
¿Dónde encaja?
La mayoría de los modelos de guardia abierto solo clasifican las salidas completadas. La puntuación de doble cabezal de qwen3guard + token-token en el tiempo se alinea con los agentes de producción que transmiten respuestas, permitiendo la intervención temprana (bloquear, redactar o redirigir) con un costo de latencia más bajo que el redecodificación. El nivel controvertido también se mapea limpiamente en las perillas de políticas empresariales (por ejemplo, trata “controvertido” como inseguro en contextos regulados, pero permiten con la revisión en el chat del consumidor).
Resumen
Qwen3Guard es una pila práctica de barandas: peso abierto (0.6b/4b/8b), dos modos de operación (gen con contexto completo, corriente de tiempo de token), etiquetado de riesgo de nivel trivel y cobertura multilingüe (119 idiomas). Para los equipos de producción, esta es una línea de base creíble para reemplazar los filtros post-hoc con moderación en tiempo real y alinear a los asistentes con recompensas de seguridad mientras monitorea las tasas de rechazo.
Echa un vistazo al papel, la página de GitHub y la colección completa en HF. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.
🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial