A medida que evolucionan los modelos de lenguaje grande (LLMS) de generadores de texto simples a sistemas agentes —ABLE para planificar, razonar y actuar de forma autónoma— hay un aumento significativo tanto en sus capacidades como en sus riesgos asociados. Las empresas están adoptando rápidamente la IA agente para la automatización, pero esta tendencia expone a las organizaciones a nuevos desafíos: desalineación de objetivos, inyección inmediata, comportamientos no deseados, fuga de datos y reducción de la supervisión humana. Al abordar estas preocupaciones, Nvidia ha publicado un Suite de software de código abierto y una receta de seguridad posterior al entrenamiento diseñada para salvaguardar los sistemas de IA de agente durante su ciclo de vida.
La necesidad de seguridad en la IA de agente
Agentic LLMS aprovecha el razonamiento avanzado y el uso de la herramienta, lo que les permite operar con un alto grado de autonomía. Sin embargo, esta autonomía puede resultar en:
- Fallas de moderación de contenido (por ejemplo, generación de salidas dañinas, tóxicas o sesgadas)
- Vulnerabilidades de seguridad (inyección inmediata, intentos de jailbreak)
- Riesgos de cumplimiento y confianza (No se alinea con las políticas empresariales o los estándares reglamentarios)
Las barandillas tradicionales y los filtros de contenido a menudo se quedan cortos a medida que los modelos y las técnicas de atacantes evolucionan rápidamente. Las empresas requieren estrategias sistemáticas de todo el ciclo de vida para alinear modelos abiertos con políticas internas y regulaciones externas.
Receta de seguridad de Nvidia: descripción general y arquitectura
La receta de seguridad de AI de AI de NVIDIA proporciona un marco integral de extremo a extremo evaluar, alinearse y salvaguardar LLM antes, durante y después de la implementación:
- Evaluación: Antes de la implementación, la receta permite realizar pruebas contra políticas empresariales, requisitos de seguridad y umbrales de confianza utilizando conjuntos de datos abiertos y puntos de referencia.
- Alineación posterior al entrenamiento: Utilizando el aprendizaje de refuerzo (RL), el ajuste fino supervisado (SFT) y las mezclas de conjunto de datos en la política, los modelos se alinean aún más con los estándares de seguridad.
- Protección continua: Después del despliegue, las barandillas de Nvidia Nemo y los microservicios de monitoreo en tiempo real proporcionan barandillas continuas y programables, bloqueando activamente los resultados inseguros y defendiendo contra inyecciones rápidas y intentos de jailbreak.
Componentes centrales
| Escenario | Tecnología/herramientas | Objetivo |
|---|---|---|
| Evaluación previa al despliegue | Nemotron Content Safety DataSet, WildGuardMix, Garak Scanner | Prueba de seguridad/seguridad |
| Alineación posterior al entrenamiento | RL, SFT, datos con licencia abierta | Seguridad/alineación de ajuste fino |
| Implementación e inferencia | Nemo GuardRails, microservicios NIM (seguridad de contenido, control de temas, detección de jailbreak) | Bloquear comportamientos inseguros |
| Monitoreo y retroalimentación | Garak, análisis en tiempo real | Detectar/resistir nuevos ataques |
Abrir conjuntos de datos y puntos de referencia
- Nemotron Content Safety DataSet V2: Utilizado para la evaluación previa y posterior a la capacitación, este conjunto de datos muestra un amplio espectro de comportamientos dañinos.
- WildGuardMix DataSet: Se dirige a la moderación del contenido a través de indicaciones ambiguas y adversas.
- Conjunto de datos de seguridad de contenido de AEGIS: Más de 35,000 muestras anotadas, que permite el desarrollo de filtros y clasificadores de grano fino para tareas de seguridad LLM.
Proceso posterior a la capacitación
La receta de seguridad posterior a la capacitación de Nvidia se distribuye como una cuaderno de Jupyter de código abierto o como un módulo de nube lanzable, asegurando la transparencia y la amplia accesibilidad. El flujo de trabajo generalmente incluye:
- Evaluación inicial del modelo: Prueba de línea de base sobre seguridad/seguridad con puntos de referencia abiertos.
- Entrenamiento de seguridad en la política: Generación de respuesta por el modelo objetivo/alineado, ajuste fino supervisado y aprendizaje de refuerzo con conjuntos de datos abiertos.
- Reevaluación: Vuelva a ejecutar puntos de seguridad de seguridad posteriores al entrenamiento para confirmar mejoras.
- Despliegue: Los modelos de confianza se implementan con monitoreo en vivo y microservicios de barandilla (moderación de contenido, control de tema/dominio, detección de jailbreak).
Impacto cuantitativo
- Seguridad de contenido: Mejoró del 88% al 94% después de aplicar la receta de seguridad de seguridad NVIDIA: una ganancia del 6%, sin pérdida medible de precisión.
- Seguridad de productos: Mejora de la resiliencia contra las indicaciones adversas (jailbreaks, etc.) del 56% al 63%, una ganancia del 7%.
Integración de colaboración y ecosistema
El enfoque de Nvidia va más allá de las herramientas internas.asociación Con los principales proveedores de ciberseguridad (defensa de Cisco AI, Crowdstrike, Trend Micro, Active Fence) permiten la integración de señales de seguridad continuas y mejoras impulsadas por incidentes en todo el ciclo de vida de la IA.
Cómo empezar
- Acceso de código abierto: La receta completa de evaluación de seguridad y posterior al entrenamiento (herramientas, conjuntos de datos, guías) está disponible públicamente para descargar y como una solución desplegable en la nube.
- Alineación de políticas personalizadas: Las empresas pueden definir políticas comerciales personalizadas, umbrales de riesgo y requisitos reglamentarios, utilizando la receta para alinear los modelos en consecuencia.
- Endurecimiento iterativo: Evalúe, posterior al tren, reevalúe y se despliegue a medida que surgen nuevos riesgos, asegurando la confiabilidad del modelo continuo.
Conclusión
La receta de seguridad de Nvidia para Agentic LLMS representa un Enfoque sistemático, primero en la industria, abiertamente disponible, Para endurecer los LLM contra los riesgos modernos de IA. Al operacionalizar los protocolos de seguridad robustos, transparentes y extensibles, las empresas pueden adoptar con confianza la IA agente, equilibrando la innovación con seguridad y cumplimiento.
Mira el Nvidia Receta de seguridad de IA y Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Preguntas frecuentes: ¿Puede MarktechPost ayudarme a promover mi producto AI y colocarlo frente a los desarrolladores de IA e ingenieros de datos?
Respuesta: Sí, MarktechPost puede ayudar a promover su producto AI publicando artículos patrocinados, estudios de casos o características del producto, dirigida a una audiencia global de desarrolladores de IA e ingenieros de datos. La plataforma MTP es ampliamente leída por profesionales técnicos, aumentando la visibilidad y el posicionamiento de su producto dentro de la comunidad de IA. [SET UP A CALL]
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.