IBM Open-Sources Granite Guardian: un conjunto de medidas de seguridad para la detección de riesgos en LLM

Los rápidos avances en los modelos de lenguajes grandes (LLM) han introducido importantes oportunidades para diversas industrias. Sin embargo, su implementación en escenarios del mundo real también presenta desafíos, como la generación de contenido dañino, alucinaciones y un posible uso indebido ético. Los LLM pueden producir resultados socialmente sesgados, violentos o profanos, y los actores adversarios a menudo explotan las vulnerabilidades mediante jailbreak para eludir las medidas de seguridad. Otro problema crítico radica en los sistemas de generación aumentada de recuperación (RAG), donde los LLM integran datos externos pero pueden proporcionar respuestas contextualmente irrelevantes o objetivamente incorrectas. Abordar estos desafíos requiere salvaguardias sólidas para garantizar un uso responsable y seguro de la IA.

Para abordar estos riesgos, IBM ha presentado Granite Guardian, un conjunto de medidas de seguridad de código abierto para la detección de riesgos en LLM. Esta suite está diseñada para detectar y mitigar múltiples dimensiones de riesgo. La suite Granite Guardian identifica indicaciones y respuestas dañinas, que cubren un amplio espectro de riesgos, incluidos prejuicios sociales, malas palabras, violencia, comportamiento poco ético, contenido sexual y problemas relacionados con las alucinaciones específicos de los sistemas RAG. Lanzado como parte de la iniciativa de código abierto de IBM, Granite Guardian tiene como objetivo promover la transparencia, la colaboración y el desarrollo responsable de la IA. Con una taxonomía de riesgos integral y conjuntos de datos de capacitación enriquecidos con anotaciones humanas y muestras adversas sintéticas, este conjunto proporciona un enfoque versátil para la detección y mitigación de riesgos.

Detalles técnicos

Los modelos de Granite Guardian, basados en el marco Granite 3.0 de IBM, están disponibles en dos variantes: un modelo liviano de 2 mil millones de parámetros y una versión más completa de 8 mil millones de parámetros. Estos modelos integran diversas fuentes de datos, incluidos conjuntos de datos anotados por humanos y muestras sintéticas generadas por adversarios, para mejorar su generalización a través de diversos riesgos. El sistema aborda eficazmente la detección de jailbreak, que a menudo los marcos de seguridad tradicionales pasan por alto, utilizando datos sintéticos diseñados para imitar ataques adversarios sofisticados. Además, los modelos incorporan capacidades para abordar riesgos específicos de RAG, como la relevancia del contexto, la fundamentación y la relevancia de las respuestas, asegurando que los resultados generados se alineen con las intenciones del usuario y la precisión de los hechos.

Una característica notable de Granite Guardian es su adaptabilidad. Los modelos se pueden integrar en los flujos de trabajo de IA existentes como barreras de seguridad o evaluadores en tiempo real. Sus métricas de alto rendimiento, incluidas puntuaciones AUC de 0,871 y 0,854 para contenido nocivo y puntos de referencia de alucinaciones RAG, respectivamente, demuestran su aplicabilidad en diversos escenarios. Además, la naturaleza de código abierto de Granite Guardian fomenta mejoras impulsadas por la comunidad, fomentando mejoras en las prácticas de seguridad de la IA.

Perspectivas y resultados

Una extensa evaluación comparativa destaca la eficacia de Granite Guardian. En conjuntos de datos públicos para la detección de contenido dañino, la variante 8B logró un AUC de 0,871, superando a líneas de base como Llama Guard y ShieldGemma. Sus compensaciones de recuperación de precisión, representadas por un AUPRC de 0,846, reflejan su capacidad para detectar indicaciones y respuestas dañinas. En las evaluaciones relacionadas con RAG, los modelos demostraron un sólido desempeño, y el modelo 8B logró un AUC de 0,895 en la identificación de problemas de conexión a tierra.

La capacidad de los modelos para generalizar a través de diversos conjuntos de datos, incluidas indicaciones contradictorias y consultas de usuarios del mundo real, muestra su solidez. Por ejemplo, en el conjunto de datos de ToxicChat, Granite Guardian demostró un alto recuerdo, señalando efectivamente interacciones dañinas con mínimos falsos positivos. Estos resultados indican la capacidad de la suite para proporcionar soluciones de detección de riesgos confiables y escalables en implementaciones prácticas de IA.

Conclusión

Granite Guardian de IBM ofrece una solución integral para proteger a los LLM contra riesgos, enfatizando la seguridad, la transparencia y la adaptabilidad. Su capacidad para detectar una amplia gama de riesgos, combinada con la accesibilidad del código abierto, la convierte en una herramienta valiosa para las organizaciones que buscan implementar la IA de manera responsable. A medida que los LLM continúan evolucionando, herramientas como Granite Guardian garantizan que este progreso vaya acompañado de salvaguardias efectivas. Al respaldar la colaboración y las mejoras impulsadas por la comunidad, IBM contribuye a mejorar la seguridad y la gobernanza de la IA, promoviendo un panorama de IA más seguro.

Verificar el Papel, Granito Guardián 3.0 2B, Granito Guardián 3.0 8B y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

IBM Open-Sources Granite Guardian: un conjunto de medidas de seguridad para la detección de riesgos en LLM

ByEquipo de 7 minutos

Detalles técnicos

Perspectivas y resultados

Conclusión

By Equipo de 7 minutos

Related Post

Una implementación de codificación en Phi-4-Mini de Microsoft para la herramienta de razonamiento de inferencia cuantificada utiliza el ajuste fino RAG y LoRA

Una implementación de codificación en Qwen 3.6-35B-A3B que cubre inferencia multimodal, control de pensamiento, llamada de herramientas, enrutamiento MoE, RAG y persistencia de sesión

Moonshot AI lanza Kimi K2.6 con codificación de horizonte largo, enjambre de agentes ampliado a 300 subagentes y 4000 pasos coordinados

You missed

Los astronautas fotografían la lluvia de meteoritos Lyrid desde la ISS foto del día del 21 de abril de 2026

Renuncia Lori Chávez-DeRemer, secretaria de Trabajo prosindical de Trump

Por qué las tasas de mortalidad son alarmantes y qué significan para su supervivencia

La asociación NEOMA McGill amplía el intercambio de estudios en Canadá