El papel del Protocolo de contexto del modelo (MCP) en la seguridad generativa de IA y el equipo rojo

Descripción general

El Protocolo de contexto del modelo (MCP) es un estándar abierto basado en JSON-RPC que formaliza cómo los clientes de IA (asistentes, IDE, aplicaciones web) se conectan a los servidores que exponen tres primitivas: toolas, recursos y indicaciones, transportes definidos (principalmente STDIO para HTTP local y floral para remotos). El valor de MCP para el trabajo de seguridad es que hace que las interacciones de agente/herramienta explícitas y auditables, con requisitos normativos en torno a la autorización que los equipos pueden verificar en el código y en las pruebas. En la práctica, esto permite un control estricto de radio explosivo para el uso de herramientas, escenarios repetibles del equipo rojo a límites de confianza claros y una aplicación de políticas medible, las organizaciones proporcionadas tratan a los servidores MCP como conectores privilegiados sujetos al escrutinio de la cadena de suministro.

¿Qué estandariza MCP?

Un servidor MCP publica: (1) Herramientas (acciones de tipo esquema llamable por el modelo), (2) recursos (objetos de datos legibles que el cliente puede obtener e inyectar como contexto) y (3) indicaciones (plantillas de mensajes reutilizables y parametrizadas, típicamente iniciados por el usuario). Distinguir estas superficies aclara quién está “en control” en cada borde: impulsado por el modelo para herramientas, impulsados ​​por la aplicación para recursos y impulsados ​​por el usuario para indicaciones. Esos roles son importantes en el modelado de amenazas, por ejemplo, la inyección rápida a menudo se dirige a rutas controladas por el modelo, mientras que el manejo de salida inseguro a menudo se produce en las uniones controladas por la aplicación.

Transportes. La especificación define dos transportes estándar: STDIO (entrada/salida estándar) y HTTP transmitible) y deja espacio para alternativas enchufables. STDIO local reduce la exposición a la red; HTTP transmitible se adapta a implementaciones de múltiples clientes o web y admite transmisiones reanudables. Trate la elección de transporte como un control de seguridad: restringir la salida de red para los servidores locales y aplique la authn/z estándar y el registro para los remotos.

🚨 [Recommended Read] VIPE (Video Pose Engine): una herramienta de anotación de video 3D potente y versátil para AI espacial

Ciclo de vida de cliente/servidor y descubrimiento. MCP formaliza cómo los clientes descubren capacidades del servidor (herramientas/recursos/indicaciones), negocian sesiones e intercambian mensajes. Esa uniformidad es lo que permite a los flujos de llamadas de instrumentos de los equipos de seguridad, capturar registros estructurados y afirmar pre/poscondiciones sin adaptadores a medida por integración.

Controles de autorización normativa

El enfoque de autorización es inusualmente prescriptivo para un protocolo de integración y debe aplicarse de la siguiente manera:

Sin pases simbólicos. “El servidor MCP no debe pasar por el token que recibió del cliente MCP”. Los servidores son servidores de recursos OAuth 2.1; Los clientes obtienen tokens de un servidor de autorización utilizando indicadores de recursos RFC 8707, por lo que los tokens están vinculados al servidor previsto. Esto evita las rutas confundidas y conserva los controles de auditoría/límite aguas arriba. Ayuda y validación de la audiencia. Los servidores deben validar que la audiencia del token de acceso coincida (vinculante de recursos) antes de cumplir una solicitud. Operacionalmente, esto impide que un token con un cliente para el “Servicio A” sea reproducido al “Servicio B”. Los equipos rojos deben incluir sondas explícitas para este modo de falla.

Este es el núcleo de la estructura de seguridad de MCP: las capacidades del lado del modelo son poderosas, pero el protocolo insiste en que los servidores sean directores de primera clase con sus propias credenciales, ámbitos y registros, en lugar de pases opacos para el token global de un usuario.

¿Dónde MCP apoya la ingeniería de seguridad en la práctica?

Límites de confianza claros. El borde del servidor del cliente es un límite explícito e inspeccionable. Puede adjuntar UIS de consentimiento, indicaciones de alcance y registro estructurado en ese borde. Muchas implementaciones de clientes presentan un permiso de permiso que enumeran las herramientas/recursos de un servidor antes de habilitarlos, útil para el menos privilegio y la auditoría, a pesar de que el estándar no especifica UX.

Contención y menor privilegio. Debido a que un servidor es un principal separado, puede aplicar alcances mínimos aguas arriba. Por ejemplo, un servidor Secrets-Broker puede acuñar credenciales de corta duración y exponer solo herramientas restringidas (por ejemplo, “Secreto de la etiqueta de política”), en lugar de entregar tokens de bóveda amplias al modelo. Los servidores públicos de MCP de los proveedores de seguridad ilustran este modelo.

Surfaces de ataque deterministas para el equipo rojo. Con esquemas de herramientas tipificadas y transportes reproducibles, los equipos rojos pueden construir accesorios que simulen entradas adversas en los límites de la herramienta y verifiquen las post-condiciones entre modelos/clientes. Esto produce pruebas reproducibles para clases de fallas como inyección rápida, manejo inseguro de salida y abuso de cadena de suministro. Combina esas pruebas con taxonomías reconocidas.

Estudio de caso: el primer servidor MCP malicioso

A fines de septiembre de 2025, los investigadores revelaron un paquete NPM de MCP de MCP Troyanizado que se hizo pasar por un servidor MCP de correo electrónico MCP. Comenzando con V1.0.16, la construcción maliciosa de BCC se extirpó en silencio cada correo electrónico enviado a través de él a una dirección/dominio controlado por el atacante. Posteriormente, el paquete se eliminó, pero la orientación instó a desinstalar la versión afectada y las credenciales giratorias. Este parece ser el primer servidor MCP malicioso documentado públicamente en la naturaleza, y subraya que los servidores de MCP a menudo se ejecutan con alta confianza y deben ser examinados y con la versión como cualquier conector privilegiado.

Control operativo:

Mantenga una lista de permiso de servidores aprobados y versiones/hashes de PIN. Requerir la procedencia del código (versiones firmadas, SBOMS) para los servidores de producción. Monitoree los patrones de salida anómala consistentes con la exfiltración BCC. Practique la rotación de las credenciales y los ejercicios de “desconexión a granel” para las integraciones de MCP.

Estos no son controles teóricos; El impacto del incidente fluyó directamente del código del servidor excesivo en un flujo de trabajo de desarrollador de rutina.

Uso de MCP para estructurar ejercicios de equipo rojo

1) Experniciones de inyección rápida y salida insegura en el límite de la herramienta. Cree corpus adversos que ingresen a través de recursos (contexto controlado por aplicaciones) e intenten coaccionar las llamadas a herramientas peligrosas. Afirme que el cliente desinfecta las salidas inyectadas y que el servidor posterior a las condiciones (por ejemplo, los nombres de host, las rutas de archivo) se mantienen. Los resultados de mapa a LLM01 (inyección rápida) y LLM02 (manejo de salida inseguro).

2) sondas confundidas de depuración para el mal uso del token. Elabore tareas que intenten inducir a un servidor a usar un token emitido por el cliente o llamar a una audiencia aguas arriba no deseada. Un servidor compatible debe rechazar tokens de audiencia extranjera según la especificación de autorización; Los clientes deben solicitar tokens correctos de audiencia con el recurso RFC 8707. Trate cualquier éxito aquí como P1.

3) Sesión/Resiliencia de transmisión. Para los transportes remotos, los flujos de reconexión/reanudación de ejercicios y la concurrencia multi-client para la fijación de la sesión/riesgos de secuestro. Validar ID de sesión no deterministas y una rápida expiración/rotación en implementaciones de carga. (HTTP transmitible admite conexiones reanudables; úselo para estresar su modelo de sesión).

4) Taladros de cadena de cadena de suministro. En un laboratorio, inserte un servidor troyano (con marcadores benignos) y verifique si sus listas de permiso, verificaciones de firma y detección de salida lo atrapan, sacando los TTP del incidente en el mataschivo. Mida el tiempo de detección y rotación de credenciales MTTR.

5) línea de base con servidores públicos de confianza. Use servidores examinados para construir tareas deterministas. Dos ejemplos prácticos: el MCP de Data Commons de Google expone conjuntos de datos públicos bajo un esquema estable (bueno para tareas/repeticiones basadas en hechos), y el MCP de Delinea demuestra que los secretos de menos privilegios intervienen para los flujos de trabajo de los agentes. Estos son sustratos ideales para pruebas repetibles de jailbreak y políticas.

Lista de verificación de endurecimiento de seguridad centrada en la implementación

Lado del cliente

Muestre el comando exacto o la configuración utilizada para iniciar servidores locales; Inicio de la puerta detrás del consentimiento explícito de los usuarios y enumere las herramientas/recursos que se habilitan. Persistir aprobaciones con granularidad de alcance. (Esta es una práctica común en clientes como Claude Desktop). Mantenga una lista de servidores con versiones y suma de verificación fijada; Denegar servidores desconocidos de forma predeterminada. Registre todas las llamadas de herramienta (nombre, metadatos de argumentos, director, decisión) y recursos de recursos con identificadores para que pueda reconstruir las rutas de ataque post-hoc.

Lado del servidor

Implementar el comportamiento de servidor de recursos OAuth 2.1; validar tokens y audiencias; Nunca reenvíe tokens emitidos por el cliente aguas arriba. Minimizar los ámbitos; Prefiera las credenciales y capacidades de corta duración que codifican la política (por ejemplo, “Fetch Secret by Label” en lugar de lectura de forma libre). Para implementaciones locales, prefiera stdio dentro de un contenedor/sandbox y restringir las capacidades del sistema de archivos/red; Para el control remoto, use HTTP transmitible con TLS, límites de velocidad y registros de auditoría estructurados.

Detección y respuesta

Alerta sobre la salida de servidor anómalo (destinos inesperados, los patrones de BCC de correo electrónico) y los cambios repentinos de capacidad entre las versiones. Prepare la automatización de break-glass para revocar las aprobaciones del cliente y rotar los secretos aguas arriba rápidamente cuando se marca un servidor (su runbook “Desconectar y rotar”). El incidente del en Manual posterior mostró por qué es importante el tiempo.

Alineación de gobernanza

La separación de las preocupaciones de MCP, los clientes como orquestadores, los servidores como principios alcanzados con capacidades tipificadas, se alinean directamente con la orientación AI RMF de NIST para el control de acceso, la registro y la evaluación del equipo rojo de los sistemas generativos, y con los énfasis LLM Top-10 de OWASP sobre la mitigación de la inyección rápida, la manejo de salida inseguro y las vulnerabilidades de suministro. Use esos marcos para justificar los controles en revisiones de seguridad y para anclar los criterios de aceptación para las integraciones de MCP.

Adopción actual con la que puede probar

Anthrope/Claude: documentos de productos y el material del ecosistema Posición MCP como la forma en que Claude se conecta a herramientas y datos externos; Muchos tutoriales comunitarios siguen de cerca el modelo de tres primitivos de la especificación. Esto proporciona superficies de clientes preparadas para permisos y registros. Data Commons MCP de Google: lanzado el 24 de septiembre de 2025, estandariza el acceso a conjuntos de datos públicos; Su anuncio y publicaciones de seguimiento incluyen notas de uso de producción (por ejemplo, el agente de datos único). Útil como una “fuente de verdad” estable en tareas del equipo rojo. Delinea MCP: servidor de código abierto que se integra con Secret Server y Delinea Platform, enfatizando el acceso secreto mediado por políticas y la alineación de OAuth con la especificación de autorización de MCP. Un ejemplo práctico de exposición a la herramienta de menos privilegio.

Resumen

MCP no es un “producto de seguridad” plateado. Es un protocolo que brinda a los practicantes de seguridad y del equipo rojo estables y aplicables palancas: tokens con destino a la audiencia, límites explícitos del servidor del cliente, esquemas de herramientas mecanografiadas y transportes que puede instrumentar. Use esas palancas para (1) restringir lo que los agentes pueden hacer, (2) observar lo que realmente hicieron y (3) reproducir escenarios adversos de manera confiable. Trate los servidores MCP como conectores privilegiados (VET, PIN y monitoreos, porque los adversarios ya lo hacen. Con esas prácticas en su lugar, MCP se convierte en una base práctica para sistemas de agente seguro y un sustrato confiable para la evaluación del equipo rojo.

Recursos utilizados en el artículo

Especificación y conceptos de MCP

Ecosistema de MCP (oficial)

Marcos de seguridad

Incidente: servidor Malicioso Mostmark-MCP

Ejemplo de servidores MCP referenciados

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.

🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial