El Protocolo de contexto del modelo (MCP) representa un poderoso cambio de paradigma en la forma en que los modelos de lenguaje grandes interactúan con herramientas, servicios y fuentes de datos externas. Diseñado para habilitar la invocación de herramientas dinámicas, el MCP facilita un método estandarizado para describir los metadatos de la herramienta, lo que permite que los modelos seleccionen y llamen a las funciones de manera inteligente. Sin embargo, como con cualquier marco emergente que mejore la autonomía del modelo, MCP introduce preocupaciones de seguridad significativas. Entre ellas se encuentran cinco vulnerabilidades notables: intoxicación por herramientas, actualizaciones de alfombras, engaño de agente de recuperación (RADE), suplantación de servidor y sombreado de servidor cruzado. Cada una de estas debilidades explota una capa diferente de la infraestructura de MCP y revela posibles amenazas que podrían comprometer la seguridad de los usuarios y la integridad de los datos.
Envenenamiento por herramientas
El envenenamiento por herramientas es una de las vulnerabilidades más insidiosas dentro del marco MCP. En esencia, este ataque implica integrar el comportamiento malicioso en una herramienta inofensiva. En MCP, donde las herramientas se anuncian con breves descripciones y esquemas de entrada/salida, un mal actor puede elaborar una herramienta con un nombre y un resumen que parezca benigno, como una calculadora o un formateador. Sin embargo, una vez invocada, la herramienta puede realizar acciones no autorizadas, como eliminar archivos, exfiltrar datos o emitir comandos ocultos. Dado que el modelo AI procesa especificaciones de herramienta detalladas que pueden no ser visibles para el usuario final, podría ejecutar sin saberlo funciones dañinas, creyendo que opera dentro de los límites previstos. Esta discrepancia entre la apariencia a nivel de superficie y la funcionalidad oculta hace que el envenenamiento de herramientas sea particularmente peligroso.
Actualizaciones de alfombras
Estrechamente relacionado con el envenenamiento de herramientas está el concepto de actualizaciones de alfombras. Esta vulnerabilidad se centra en la dinámica de confianza temporal en entornos habilitados para MCP. Inicialmente, una herramienta puede comportarse exactamente como se esperaba, realizando operaciones útiles y legítimas. Con el tiempo, el desarrollador de la herramienta, o alguien que gana el control de su fuente, puede emitir una actualización que introduce un comportamiento malicioso. Este cambio podría no activar alertas inmediatas si los usuarios o agentes confían en mecanismos de actualización automatizados o no reevalúan rigurosamente las herramientas después de cada revisión. El modelo AI, que aún funciona bajo el supuesto de que la herramienta es confiable, puede llamarlo para operaciones confidenciales, iniciando sin darse cuenta las fugas de datos, la corrupción de archivos u otros resultados indeseables. El peligro de las actualizaciones de la alfombra se encuentra en el inicio diferido del riesgo: para cuando el ataque está activo, el modelo a menudo ya se ha condicionado para confiar en la herramienta implícitamente.
Engaño de agente de recuperación
El engaño de agente de recuperación, o Rade, expone una vulnerabilidad más indirecta pero igualmente potente. En muchos casos de uso de MCP, los modelos están equipados con herramientas de recuperación para consultar bases de conocimiento, documentos y otros datos externos para mejorar las respuestas. Rade explota esta característica colocando patrones de comando MCP maliciosos en documentos o conjuntos de datos accesibles públicamente. Cuando una herramienta de recuperación ingiere estos datos envenenados, el modelo AI puede interpretar las instrucciones integradas como comandos válidos de llamado de herramientas. Por ejemplo, un documento que explica un tema técnico podría incluir indicaciones ocultas que dirigen al modelo a llamar a una herramienta de manera involuntaria o proporcionar parámetros peligrosos. El modelo, sin darse cuenta de que ha sido manipulado, ejecuta estas instrucciones, convirtiendo efectivamente los datos recuperados en un canal de comando encubierto. Esta desenfoque de datos y la intención ejecutable amenaza la integridad de los agentes con el contexto que dependen en gran medida de las interacciones acuáticas de recuperación.
Falsificación del servidor
La falsificación del servidor constituye otra amenaza sofisticada en los ecosistemas de MCP, particularmente en entornos distribuidos. Debido a que MCP permite que los modelos interactúen con servidores remotos que exponen varias herramientas, cada servidor típicamente anuncia sus herramientas a través de un manifiesto que incluye nombres, descripciones y esquemas. Un atacante puede crear un servidor deshonesto que imita uno legítimo, copiando su nombre y lista de herramientas para engañar a los modelos y usuarios por igual. Cuando el agente de IA se conecta a este servidor falsificado, puede recibir metadatos de herramientas alterados o ejecutar llamadas de herramientas con implementaciones de backend completamente diferentes de lo esperado. Desde la perspectiva del modelo, el servidor parece legítimo y, a menos que haya una fuerte autenticación o verificación de identidad, procede a operar bajo supuestos falsos. Las consecuencias de la falsificación del servidor incluyen robo de credenciales, manipulación de datos o ejecución de comandos no autorizados.
Sombreado de servidor cruzado
Finalmente, la sombra de servidor cruzado refleja la vulnerabilidad en contextos MCP de múltiples servidores, donde varios servidores contribuyen con herramientas a una sesión de modelo compartido. En tales configuraciones, un servidor malicioso puede manipular el comportamiento del modelo inyectando un contexto que interfiere o redefine cómo se perciben o usan las herramientas de otro servidor. Esto puede ocurrir a través de definiciones de herramientas conflictivas, metadatos engañosos o orientación inyectada que distorsione la lógica de selección de herramientas del modelo. Por ejemplo, si un servidor redefine un nombre de herramienta común o proporciona instrucciones conflictivas, puede seguir efectivamente o anular la funcionalidad legítima que ofrece otro servidor. El modelo, que intenta conciliar estas entradas, puede ejecutar la versión incorrecta de una herramienta o seguir instrucciones dañinas. El sombreado de servicio cruzado socava la modularidad del diseño de MCP al permitir que un actor malo corrompa interacciones que abarcan múltiples fuentes seguras de otro modo.
En conclusión, estas cinco vulnerabilidades exponen debilidades críticas de seguridad en el panorama operativo actual del protocolo del contexto modelo. Si bien MCP introduce posibilidades emocionantes para el razonamiento de agente y la finalización de la tarea dinámica, también abre la puerta a varios comportamientos que explotan la confianza del modelo, la ambigüedad contextual y los mecanismos de descubrimiento de herramientas. A medida que el estándar MCP evoluciona y gana una adopción más amplia, abordar estas amenazas será esencial para mantener la confianza del usuario y garantizar la implementación segura de los agentes de IA en entornos del mundo real.
Fuentes
https://techcommunity.microsoft.com/blog/microsoftdefendercloudblog/plug-play-and-prey-the-security-risks-of-the-model-context-protocol/4410829
Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.