A medida que las aplicaciones impulsadas por LLM pasan a producción, y a medida que los agentes de IA asumen tareas más importantes como navegar por la web, escribir y ejecutar código e interactuar con servicios externos, la moderación de la seguridad se ha convertido silenciosamente en una de las partes más costosas desde el punto de vista operativo.
La mayoría de los desarrolladores que han implementado un sistema LLM de producción conocen el problema: es necesario evaluar cada mensaje del usuario antes de que llegue al modelo y cada respuesta del modelo antes de que llegue al usuario. Eso significa que su modelo de barrera se ejecuta en cada solicitud, en cada paso de una conversación. La latencia de la barrera de seguridad se agrava. El costo se agrava. Y la generación actual de modelos de barandilla de código abierto (LlamaGuard4 (12B), WildGuard (7B), ShieldGemma (27B), NemoGuard (8B) son todos modelos solo decodificadores con miles de millones de parámetros, diseñados para brindar flexibilidad pero no velocidad.
Fastino Labs lanzó GLiGuard, un modelo de moderación de seguridad de código abierto de 300 millones de parámetros diseñado para abordar este problema específico. GLiGuard evalúa múltiples dimensiones de seguridad en una sola pasada y, en nueve puntos de referencia de seguridad, su precisión iguala o supera a los modelos que son de 23 a 90 veces su tamaño mientras funcionan hasta 16 veces más rápido.
Para comprender qué hace que GLiGuard sea diferente, es útil comprender por qué los modelos de barandillas existentes son lentos. La mayoría de los principales modelos de barreras de seguridad se basan en arquitecturas transformadoras de solo decodificador y generan sus veredictos de seguridad de forma autorregresiva, un token a la vez, de la misma manera que un modelo de lenguaje grande genera una respuesta a un mensaje de chat.
Este diseño tenía sentido cuando los requisitos de seguridad eran fluidos. Los modelos decodificadores pueden interpretar descripciones de tareas en lenguaje natural y adaptarse a nuevas políticas de seguridad sin necesidad de volver a capacitarse. Pero la generación autorregresiva es inherentemente secuencial, lo que la hace lenta y costosa desde el punto de vista computacional.
Además de eso, hay un problema complejo. La mayoría de los modelos de barandillas necesitan evaluar entradas en múltiples dimensiones de seguridad: qué tipo de daño está presente, si el aviso del usuario intenta eludir la capacitación en seguridad, si la respuesta del modelo es en sí misma insegura, etc. Debido a que los modelos de decodificador generan resultados de forma secuencial, estas evaluaciones generalmente se producen una tras otra, y la latencia aumenta a medida que se evalúan más criterios.
En otras palabras, la arquitectura que hace que los modelos decodificadores sean flexibles es también la arquitectura que los convierte en la herramienta equivocada para lo que es fundamentalmente un problema de clasificación.
Qué hace realmente GLiGuard
GLiGuard es un pequeño modelo basado en codificador que replantea la moderación de seguridad como un problema de clasificación de texto en lugar de un problema de generación de texto. Los modelos codificadores procesan toda la entrada a la vez y generan una única etiqueta de clasificación para un conjunto de etiquetas fijas, mientras que los modelos decodificadores generan su salida un token a la vez, de izquierda a derecha.
La visión arquitectónica clave está en cómo GLiGuard maneja múltiples tareas simultáneamente. En lugar de generar tokens, GLiGuard codifica tanto el texto de entrada como las definiciones de tareas (etiquetas) juntos. Luego, estos se envían al modelo, que califica cada etiqueta simultáneamente en un solo paso hacia adelante y devuelve la etiqueta con la puntuación más alta para cada tarea. Debido a que todas las tareas y sus etiquetas candidatas son parte de la entrada misma, la evaluación de dimensiones de seguridad adicionales no agrega latencia; simplemente significa incluir más etiquetas en la entrada.
GLiGuard ejecuta cuatro tareas de moderación simultáneamente en un solo paso hacia adelante:
Clasificación de seguridad (segura/insegura): se aplica tanto a las indicaciones del usuario antes de la generación como a las respuestas del modelo después de la generación. Detección de estrategias de jailbreak a través de 11 estrategias, que incluyen inyección rápida, omisión de juegos de rol, anulación de instrucciones e ingeniería social. Si se detecta alguna estrategia de jailbreak, el mensaje se marca automáticamente como inseguro. Detección de categorías de daños en 14 categorías: violencia, contenido sexual, incitación al odio, exposición de PII, información errónea, seguridad infantil, violación de derechos de autor y otras. Una sola entrada puede activar múltiples categorías a la vez. Detección de rechazos (cumplimiento/rechazo), rastreada por separado para ayudar a medir el rechazo excesivo (cuando un modelo rechaza solicitudes seguras) y detectar el cumplimiento falso (cuando un modelo parece cumplir pero no lo hace). Si se detecta un rechazo, la respuesta se marca automáticamente como segura.
Datos de entrenamiento y ajuste
GLiGuard se entrenó con una combinación de datos de entrenamiento generados sintéticamente y anotados por humanos. Para una seguridad rápida, seguridad de respuesta y detección de rechazos, el equipo utilizó WildGuardTrain, un conjunto de datos de 87.000 ejemplos anotados por humanos. Para la detección de categorías de daños y estrategias de jailbreak, se generaron etiquetas para las muestras inseguras utilizando GPT-4.1.
Durante el entrenamiento inicial, el modelo tuvo dificultades para distinguir entre categorías de daño similares, como el habla tóxica y la violencia, por lo que el equipo utilizó Pioneer para generar datos sintéticos complementarios con casos extremos centrados en estas distinciones detalladas.
En el lado de la arquitectura, GLiGuard se entrenó mediante un ajuste completo del punto de control GLiNER2-base-v1 durante 20 épocas utilizando el optimizador AdamW. GLiNER2 es la arquitectura propia de Fastino para la clasificación de textos multitarea: un punto de partida natural para un modelo diseñado para calificar múltiples conjuntos de etiquetas en una sola pasada.
Resultados de referencia: precisión y velocidad
El equipo de investigación evaluó GLiGuard en nueve puntos de referencia de seguridad establecidos. Estos puntos de referencia cubren tanto la clasificación de avisos como de respuestas, probando si un modelo puede identificar contenido dañino, resistir ataques adversarios, distinguir entre diferentes tipos de daño y evitar marcar excesivamente contenido seguro. Los resultados utilizan F1 macropromediado, una métrica estándar que equilibra la precisión y la recuperación.
Sobre la precisión:
GLiGuard obtiene una puntuación F1 promedio de 87,7 en clasificación rápida, a 1,7 puntos del mejor modelo (PolyGuard-Qwen con 89,4). Logra el segundo promedio más alto F1 en clasificación de respuesta (82,7), solo detrás de Qwen3Guard-8B (84,1). Supera a LlamaGuard4-12B, ShieldGemma-27B y NemoGuard-8B a pesar de ser entre 23 y 90 veces más pequeño.
En cuanto al rendimiento y la latencia, comparados con una única GPU NVIDIA A100:
GLiGuard logra un rendimiento hasta 16,2 veces mayor (133 frente a 8,2 muestras/s en un tamaño de lote 4). GLiGuard logra una latencia hasta 16,6 veces menor: 26 ms frente a 426 ms con una longitud de secuencia de 64.
Estas no son mejoras marginales. A 26 ms por solicitud frente a 426 ms, la diferencia es significativa en cualquier aplicación orientada al usuario en tiempo real, y el efecto compuesto en una conversación de varios turnos hace que la brecha sea aún mayor en la práctica.
Explicador visual de Marktechpost
Conclusiones clave
GLiGuard es un modelo de moderación de seguridad basado en codificador de parámetros de 300M que maneja cuatro tareas (clasificación de seguridad, detección de jailbreak, categorización de daños y detección de rechazo) en un solo paso hacia adelante. A diferencia de los modelos de barrera de seguridad solo con decodificador que generan veredictos de forma autorregresiva, GLiGuard replantea la moderación de seguridad como un problema de clasificación de texto, eliminando el cuello de botella de latencia secuencial. Comparado con una única GPU NVIDIA A100, GLiGuard logra un rendimiento hasta 16,2 veces mayor y una latencia 16,6 veces menor (26 ms frente a 426 ms) en comparación con los modelos SOTA actuales como ShieldGemma-27B. En nueve puntos de referencia de seguridad, GLiGuard obtiene una puntuación F1 promedio de 87,7 en clasificación de avisos y 82,7 en clasificación de respuesta, superando a LlamaGuard4-12B, ShieldGemma-27B y NemoGuard-8B a pesar de ser entre 23 y 90 veces más pequeño. Los pesos de los modelos están disponibles en Apache 2.0 en Hugging Face (fastino/gliguard-LLMGuardrails-300M), lo que los hace implementables en una sola GPU sin infraestructura pesada.
Consulte el documento, los pesos de los modelos en HF, el repositorio de GitHub y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros