Sistemas de AI de la AI de protección: la receta de seguridad de código abierto de NVIDIA

A medida que evolucionan los modelos de lenguaje grande (LLMS) de generadores de texto simples a sistemas agentes —ABLE para planificar, razonar y actuar de forma autónoma— hay un aumento significativo tanto en sus capacidades como en sus riesgos asociados. Las empresas están adoptando rápidamente la IA agente para la automatización, pero esta tendencia expone a las organizaciones a nuevos desafíos: desalineación de objetivos, inyección inmediata, comportamientos no deseados, fuga de datos y reducción de la supervisión humana. Al abordar estas preocupaciones, Nvidia ha publicado un Suite de software de código abierto y una receta de seguridad posterior al entrenamiento diseñada para salvaguardar los sistemas de IA de agente durante su ciclo de vida.

La necesidad de seguridad en la IA de agente

Agentic LLMS aprovecha el razonamiento avanzado y el uso de la herramienta, lo que les permite operar con un alto grado de autonomía. Sin embargo, esta autonomía puede resultar en:

Fallas de moderación de contenido (por ejemplo, generación de salidas dañinas, tóxicas o sesgadas)
Vulnerabilidades de seguridad (inyección inmediata, intentos de jailbreak)
Riesgos de cumplimiento y confianza (No se alinea con las políticas empresariales o los estándares reglamentarios)

Las barandillas tradicionales y los filtros de contenido a menudo se quedan cortos a medida que los modelos y las técnicas de atacantes evolucionan rápidamente. Las empresas requieren estrategias sistemáticas de todo el ciclo de vida para alinear modelos abiertos con políticas internas y regulaciones externas.

Receta de seguridad de Nvidia: descripción general y arquitectura

La receta de seguridad de AI de AI de NVIDIA proporciona un marco integral de extremo a extremo evaluar, alinearse y salvaguardar LLM antes, durante y después de la implementación:

Evaluación: Antes de la implementación, la receta permite realizar pruebas contra políticas empresariales, requisitos de seguridad y umbrales de confianza utilizando conjuntos de datos abiertos y puntos de referencia.
Alineación posterior al entrenamiento: Utilizando el aprendizaje de refuerzo (RL), el ajuste fino supervisado (SFT) y las mezclas de conjunto de datos en la política, los modelos se alinean aún más con los estándares de seguridad.
Protección continua: Después del despliegue, las barandillas de Nvidia Nemo y los microservicios de monitoreo en tiempo real proporcionan barandillas continuas y programables, bloqueando activamente los resultados inseguros y defendiendo contra inyecciones rápidas y intentos de jailbreak.

Componentes centrales

Escenario	Tecnología/herramientas	Objetivo
Evaluación previa al despliegue	Nemotron Content Safety DataSet, WildGuardMix, Garak Scanner	Prueba de seguridad/seguridad
Alineación posterior al entrenamiento	RL, SFT, datos con licencia abierta	Seguridad/alineación de ajuste fino
Implementación e inferencia	Nemo GuardRails, microservicios NIM (seguridad de contenido, control de temas, detección de jailbreak)	Bloquear comportamientos inseguros
Monitoreo y retroalimentación	Garak, análisis en tiempo real	Detectar/resistir nuevos ataques

Abrir conjuntos de datos y puntos de referencia

Nemotron Content Safety DataSet V2: Utilizado para la evaluación previa y posterior a la capacitación, este conjunto de datos muestra un amplio espectro de comportamientos dañinos.
WildGuardMix DataSet: Se dirige a la moderación del contenido a través de indicaciones ambiguas y adversas.
Conjunto de datos de seguridad de contenido de AEGIS: Más de 35,000 muestras anotadas, que permite el desarrollo de filtros y clasificadores de grano fino para tareas de seguridad LLM.

Proceso posterior a la capacitación

La receta de seguridad posterior a la capacitación de Nvidia se distribuye como una cuaderno de Jupyter de código abierto o como un módulo de nube lanzable, asegurando la transparencia y la amplia accesibilidad. El flujo de trabajo generalmente incluye:

Evaluación inicial del modelo: Prueba de línea de base sobre seguridad/seguridad con puntos de referencia abiertos.
Entrenamiento de seguridad en la política: Generación de respuesta por el modelo objetivo/alineado, ajuste fino supervisado y aprendizaje de refuerzo con conjuntos de datos abiertos.
Reevaluación: Vuelva a ejecutar puntos de seguridad de seguridad posteriores al entrenamiento para confirmar mejoras.
Despliegue: Los modelos de confianza se implementan con monitoreo en vivo y microservicios de barandilla (moderación de contenido, control de tema/dominio, detección de jailbreak).

Impacto cuantitativo

Seguridad de contenido: Mejoró del 88% al 94% después de aplicar la receta de seguridad de seguridad NVIDIA: una ganancia del 6%, sin pérdida medible de precisión.
Seguridad de productos: Mejora de la resiliencia contra las indicaciones adversas (jailbreaks, etc.) del 56% al 63%, una ganancia del 7%.

Integración de colaboración y ecosistema

El enfoque de Nvidia va más allá de las herramientas internas.asociación Con los principales proveedores de ciberseguridad (defensa de Cisco AI, Crowdstrike, Trend Micro, Active Fence) permiten la integración de señales de seguridad continuas y mejoras impulsadas por incidentes en todo el ciclo de vida de la IA.

Cómo empezar

Acceso de código abierto: La receta completa de evaluación de seguridad y posterior al entrenamiento (herramientas, conjuntos de datos, guías) está disponible públicamente para descargar y como una solución desplegable en la nube.
Alineación de políticas personalizadas: Las empresas pueden definir políticas comerciales personalizadas, umbrales de riesgo y requisitos reglamentarios, utilizando la receta para alinear los modelos en consecuencia.
Endurecimiento iterativo: Evalúe, posterior al tren, reevalúe y se despliegue a medida que surgen nuevos riesgos, asegurando la confiabilidad del modelo continuo.

Conclusión

La receta de seguridad de Nvidia para Agentic LLMS representa un Enfoque sistemático, primero en la industria, abiertamente disponible, Para endurecer los LLM contra los riesgos modernos de IA. Al operacionalizar los protocolos de seguridad robustos, transparentes y extensibles, las empresas pueden adoptar con confianza la IA agente, equilibrando la innovación con seguridad y cumplimiento.

Mira el Nvidia Receta de seguridad de IA y Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Preguntas frecuentes: ¿Puede MarktechPost ayudarme a promover mi producto AI y colocarlo frente a los desarrolladores de IA e ingenieros de datos?

Respuesta: Sí, MarktechPost puede ayudar a promover su producto AI publicando artículos patrocinados, estudios de casos o características del producto, dirigida a una audiencia global de desarrolladores de IA e ingenieros de datos. La plataforma MTP es ampliamente leída por profesionales técnicos, aumentando la visibilidad y el posicionamiento de su producto dentro de la comunidad de IA. [SET UP A CALL]

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Sistemas de AI de la AI de protección: la receta de seguridad de código abierto de NVIDIA

ByEquipo de 7 minutos

La necesidad de seguridad en la IA de agente

Receta de seguridad de Nvidia: descripción general y arquitectura

Componentes centrales

Abrir conjuntos de datos y puntos de referencia

Proceso posterior a la capacitación

Impacto cuantitativo

Integración de colaboración y ecosistema

Cómo empezar

Conclusión

By Equipo de 7 minutos

Related Post

La Universidad Sorbona de Abu Dabi y Saal.ai anuncian una colaboración estratégica para promover la innovación en IA en los EAU

Una implementación de codificación para la optimización de la cartera con skfolio para crear pruebas, ajustar y comparar estrategias de inversión modernas

Uso de transformadores para pronosticar erupciones solares increíblemente raras

You missed

El nuevo objetivo de pasos diarios muestra que no se necesitan 10.000 para mantener el peso perdido: ScienceAlert

Retiran el cuadro con la imagen del verdugo de Peset Aleixandre y lo ponen cara a la pared

Alumna del Lady Elizabeth School inspira a Málaga « Euro Weekly News

La Universidad Sorbona de Abu Dabi y Saal.ai anuncian una colaboración estratégica para promover la innovación en IA en los EAU