GLiGuard de código abierto de Fastino Labs: un modelo de moderación de seguridad de parámetros de 300 millones que iguala o supera la precisión de los modelos entre 23 y 90 veces su tamaño

A medida que las aplicaciones impulsadas por LLM pasan a producción, y a medida que los agentes de IA asumen tareas más importantes como navegar por la web, escribir y ejecutar código e interactuar con servicios externos, la moderación de la seguridad se ha convertido silenciosamente en una de las partes más costosas desde el punto de vista operativo.

La mayoría de los desarrolladores que han implementado un sistema LLM de producción conocen el problema: es necesario evaluar cada mensaje del usuario antes de que llegue al modelo y cada respuesta del modelo antes de que llegue al usuario. Eso significa que su modelo de barrera se ejecuta en cada solicitud, en cada paso de una conversación. La latencia de la barrera de seguridad se agrava. El costo se agrava. Y la generación actual de modelos de barandilla de código abierto (LlamaGuard4 (12B), WildGuard (7B), ShieldGemma (27B), NemoGuard (8B) son todos modelos solo decodificadores con miles de millones de parámetros, diseñados para brindar flexibilidad pero no velocidad.

Fastino Labs lanzó GLiGuard, un modelo de moderación de seguridad de código abierto de 300 millones de parámetros diseñado para abordar este problema específico. GLiGuard evalúa múltiples dimensiones de seguridad en una sola pasada y, en nueve puntos de referencia de seguridad, su precisión iguala o supera a los modelos que son de 23 a 90 veces su tamaño mientras funcionan hasta 16 veces más rápido.

https://pioneer.ai/blog/gliguard-16x-faster-safety-moderation-with-a-small-language-model

Para comprender qué hace que GLiGuard sea diferente, es útil comprender por qué los modelos de barandillas existentes son lentos. La mayoría de los principales modelos de barreras de seguridad se basan en arquitecturas transformadoras de solo decodificador y generan sus veredictos de seguridad de forma autorregresiva, un token a la vez, de la misma manera que un modelo de lenguaje grande genera una respuesta a un mensaje de chat.

Este diseño tenía sentido cuando los requisitos de seguridad eran fluidos. Los modelos decodificadores pueden interpretar descripciones de tareas en lenguaje natural y adaptarse a nuevas políticas de seguridad sin necesidad de volver a capacitarse. Pero la generación autorregresiva es inherentemente secuencial, lo que la hace lenta y costosa desde el punto de vista computacional.

Además de eso, hay un problema complejo. La mayoría de los modelos de barandillas necesitan evaluar entradas en múltiples dimensiones de seguridad: qué tipo de daño está presente, si el aviso del usuario intenta eludir la capacitación en seguridad, si la respuesta del modelo es en sí misma insegura, etc. Debido a que los modelos de decodificador generan resultados de forma secuencial, estas evaluaciones generalmente se producen una tras otra, y la latencia aumenta a medida que se evalúan más criterios.

En otras palabras, la arquitectura que hace que los modelos decodificadores sean flexibles es también la arquitectura que los convierte en la herramienta equivocada para lo que es fundamentalmente un problema de clasificación.

Qué hace realmente GLiGuard

GLiGuard es un pequeño modelo basado en codificador que replantea la moderación de seguridad como un problema de clasificación de texto en lugar de un problema de generación de texto. Los modelos codificadores procesan toda la entrada a la vez y generan una única etiqueta de clasificación para un conjunto de etiquetas fijas, mientras que los modelos decodificadores generan su salida un token a la vez, de izquierda a derecha.

La visión arquitectónica clave está en cómo GLiGuard maneja múltiples tareas simultáneamente. En lugar de generar tokens, GLiGuard codifica tanto el texto de entrada como las definiciones de tareas (etiquetas) juntos. Luego, estos se envían al modelo, que califica cada etiqueta simultáneamente en un solo paso hacia adelante y devuelve la etiqueta con la puntuación más alta para cada tarea. Debido a que todas las tareas y sus etiquetas candidatas son parte de la entrada misma, la evaluación de dimensiones de seguridad adicionales no agrega latencia; simplemente significa incluir más etiquetas en la entrada.

https://pioneer.ai/blog/gliguard-16x-faster-safety-moderation-with-a-small-language-model

GLiGuard ejecuta cuatro tareas de moderación simultáneamente en un solo paso hacia adelante:

Clasificación de seguridad (segura/insegura): se aplica tanto a las indicaciones del usuario antes de la generación como a las respuestas del modelo después de la generación. Detección de estrategias de jailbreak a través de 11 estrategias, que incluyen inyección rápida, omisión de juegos de rol, anulación de instrucciones e ingeniería social. Si se detecta alguna estrategia de jailbreak, el mensaje se marca automáticamente como inseguro. Detección de categorías de daños en 14 categorías: violencia, contenido sexual, incitación al odio, exposición de PII, información errónea, seguridad infantil, violación de derechos de autor y otras. Una sola entrada puede activar múltiples categorías a la vez. Detección de rechazos (cumplimiento/rechazo), rastreada por separado para ayudar a medir el rechazo excesivo (cuando un modelo rechaza solicitudes seguras) y detectar el cumplimiento falso (cuando un modelo parece cumplir pero no lo hace). Si se detecta un rechazo, la respuesta se marca automáticamente como segura.

Datos de entrenamiento y ajuste

GLiGuard se entrenó con una combinación de datos de entrenamiento generados sintéticamente y anotados por humanos. Para una seguridad rápida, seguridad de respuesta y detección de rechazos, el equipo utilizó WildGuardTrain, un conjunto de datos de 87.000 ejemplos anotados por humanos. Para la detección de categorías de daños y estrategias de jailbreak, se generaron etiquetas para las muestras inseguras utilizando GPT-4.1.

Durante el entrenamiento inicial, el modelo tuvo dificultades para distinguir entre categorías de daño similares, como el habla tóxica y la violencia, por lo que el equipo utilizó Pioneer para generar datos sintéticos complementarios con casos extremos centrados en estas distinciones detalladas.

En el lado de la arquitectura, GLiGuard se entrenó mediante un ajuste completo del punto de control GLiNER2-base-v1 durante 20 épocas utilizando el optimizador AdamW. GLiNER2 es la arquitectura propia de Fastino para la clasificación de textos multitarea: un punto de partida natural para un modelo diseñado para calificar múltiples conjuntos de etiquetas en una sola pasada.

Resultados de referencia: precisión y velocidad

El equipo de investigación evaluó GLiGuard en nueve puntos de referencia de seguridad establecidos. Estos puntos de referencia cubren tanto la clasificación de avisos como de respuestas, probando si un modelo puede identificar contenido dañino, resistir ataques adversarios, distinguir entre diferentes tipos de daño y evitar marcar excesivamente contenido seguro. Los resultados utilizan F1 macropromediado, una métrica estándar que equilibra la precisión y la recuperación.

Sobre la precisión:

GLiGuard obtiene una puntuación F1 promedio de 87,7 en clasificación rápida, a 1,7 puntos del mejor modelo (PolyGuard-Qwen con 89,4). Logra el segundo promedio más alto F1 en clasificación de respuesta (82,7), solo detrás de Qwen3Guard-8B (84,1). Supera a LlamaGuard4-12B, ShieldGemma-27B y NemoGuard-8B a pesar de ser entre 23 y 90 veces más pequeño.

En cuanto al rendimiento y la latencia, comparados con una única GPU NVIDIA A100:

GLiGuard logra un rendimiento hasta 16,2 veces mayor (133 frente a 8,2 muestras/s en un tamaño de lote 4). GLiGuard logra una latencia hasta 16,6 veces menor: 26 ms frente a 426 ms con una longitud de secuencia de 64.

Estas no son mejoras marginales. A 26 ms por solicitud frente a 426 ms, la diferencia es significativa en cualquier aplicación orientada al usuario en tiempo real, y el efecto compuesto en una conversación de varios turnos hace que la brecha sea aún mayor en la práctica.

Explicador visual de Marktechpost

01 — Descripción general

Qué es GLiGuard?

GLiGuard es un modelo de moderación de seguridad de parámetros de 300M de código abierto lanzado por Fastino Labs el 12 de mayo de 2026. Está diseñado para actuar como una capa de protección entre los usuarios y los LLM, examinando cada mensaje del usuario antes de que llegue al modelo y cada respuesta del modelo antes de que llegue al usuario.

300M

Parámetros: se ejecuta en una sola GPU

16x

Rendimiento más rápido frente a las barreras de seguridad del decodificador SOTA

Tareas de seguridad evaluadas en un solo pase hacia adelante

apache 2.0
abrazando la cara
Inferencia pionera
Arquitectura del codificador

02 — El problema

Por qué existir Barandillas son lentos

La mayoría de los modelos de barandillas de producción (LlamaGuard4, WildGuard, ShieldGemma, NemoGuard) se basan en arquitecturas de transformadores solo decodificadores. Generan veredictos de seguridad de forma autorregresiva, un token a la vez, de la misma manera que un modelo de lenguaje grande genera una respuesta de chat.

Modelos de protección del decodificador

Generar veredictos token por token

Salida secuencial: compuestos de latencia por tarea

7B – 27B parámetros requeridos

Caro de ejecutar a escala en tiempo real

Pasadas separadas por dimensión de seguridad

GLiGuard (codificador)

Procesa toda la entrada a la vez

Todas las tareas evaluadas en un solo paso hacia adelante.

300M parámetros

Implementación de una sola GPU

Más dimensiones = sin latencia añadida

03 — Arquitectura

Pase único. Múltiples tareas.

GLiGuard reformula la moderación de seguridad como un problema de clasificación de texto, no como un problema de generación de texto. Codifica el texto de entrada y todas las definiciones de tareas (etiquetas) juntas, luego califica cada etiqueta simultáneamente en una sola pasada. Agregar más dimensiones de seguridad no aumenta la latencia; simplemente significa más etiquetas en la entrada.

Modelo base: ajustado desde el punto de control GLiNER2-base-v1 utilizando un ajuste fino completo durante 20 épocas con el optimizador AdamW. Datos de entrenamiento: 87.000 ejemplos anotados por humanos de WildGuardTrain, además de datos sintéticos de casos extremos generados a través de GPT-4.1 y Pioneer para distinciones detalladas de categorías de daños.

04 — Capacidades

4 tareas de moderación en Un pase

Clasificación de seguridad: seguro/inseguro

Se aplica tanto a las indicaciones del usuario antes de la generación como a las respuestas del modelo tras la generación.

Detección de estrategias de jailbreak: 11 estrategias

Detecta inyección rápida, omisión de juegos de rol, anulación de instrucciones, ingeniería social y otros. Cualquier estrategia detectada marca automáticamente el mensaje como inseguro.

Detección de categorías de daños: 14 categorías

Violencia, contenido sexual, incitación al odio, exposición de PII, información errónea, seguridad infantil, violación de derechos de autor y otros. Una sola entrada puede activar múltiples categorías.

Detección de rechazo: cumplimiento / rechazo

Realiza un seguimiento del rechazo excesivo (rechazo de solicitudes seguras) y el cumplimiento falso. Un rechazo detectado marca automáticamente la respuesta como segura.

05 — Puntos de referencia

Precisión vs. Modelos mucho más grandes

Evaluado en 9 puntos de referencia de seguridad utilizando F1 macropromediado. Velocidad comparada en una única GPU NVIDIA A100.

Clasificación rápida: promedio. F1

26ms

Latencia en sec. longitud 64 (frente a 426 ms para ShieldGemma-27B)

133

Rendimiento de muestras/segundo en tamaño de lote 4

06 — Comience

Desplegar GLiGuard Hoy

Con parámetros de 300 millones, GLiGuard se ejecuta en una sola GPU y se puede ajustar para casos de uso específicos de dominio sin una infraestructura pesada. Los pesos están disponibles en Hugging Face bajo la licencia Apache 2.0. La inferencia gestionada está disponible en Pioneer.

ID del modelo

fastino/gliguard-LLMGuardrails-300M

Seguridad inmediata
Seguridad de respuesta
Detección de fuga
Clasificación de daños
Detección de rechazo
GPU única

Conclusiones clave

GLiGuard es un modelo de moderación de seguridad basado en codificador de parámetros de 300M que maneja cuatro tareas (clasificación de seguridad, detección de jailbreak, categorización de daños y detección de rechazo) en un solo paso hacia adelante. A diferencia de los modelos de barrera de seguridad solo con decodificador que generan veredictos de forma autorregresiva, GLiGuard replantea la moderación de seguridad como un problema de clasificación de texto, eliminando el cuello de botella de latencia secuencial. Comparado con una única GPU NVIDIA A100, GLiGuard logra un rendimiento hasta 16,2 veces mayor y una latencia 16,6 veces menor (26 ms frente a 426 ms) en comparación con los modelos SOTA actuales como ShieldGemma-27B. En nueve puntos de referencia de seguridad, GLiGuard obtiene una puntuación F1 promedio de 87,7 en clasificación de avisos y 82,7 en clasificación de respuesta, superando a LlamaGuard4-12B, ShieldGemma-27B y NemoGuard-8B a pesar de ser entre 23 y 90 veces más pequeño. Los pesos de los modelos están disponibles en Apache 2.0 en Hugging Face (fastino/gliguard-LLMGuardrails-300M), lo que los hace implementables en una sola GPU sin infraestructura pesada.

Consulte el documento, los pesos de los modelos en HF, el repositorio de GitHub y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

GLiGuard de código abierto de Fastino Labs: un modelo de moderación de seguridad de parámetros de 300 millones que iguala o supera la precisión de los modelos entre 23 y 90 veces su tamaño

ByEquipo de 7 minutos

Qué hace realmente GLiGuard

Datos de entrenamiento y ajuste

Resultados de referencia: precisión y velocidad

Explicador visual de Marktechpost

Conclusiones clave

By Equipo de 7 minutos

Related Post

Google DeepMind presenta un puntero de mouse con inteligencia artificial impulsado por Gemini que captura el contexto visual y semántico alrededor del cursor

Conozca AntAngelMed: un modelo de lenguaje médico de código abierto con parámetros 103B construido sobre una arquitectura MoE con relación de activación de 1/32

Cree un agente autónomo de memoria híbrida con arquitectura modular y distribución de herramientas mediante OpenAI

You missed

La odontología más antigua conocida no fue realizada por nuestra especie: ScienceAlert

ELECCIONES ANDALUZAS | El PSOE apela a lo que fue en Andalucía para no hundirse en la depresión: “Nos jugamos la vida”

El premio de los NIH señala los beneficios de los anticuerpos no animales

Dolfin de Barcelona recauda 2,1 millones de euros en una ronda Seed para escalar su plataforma nativa de IA para compensación de ventas