Vulnerabilidades de seguridad críticas en el Protocolo de contexto del modelo (MCP): cómo las herramientas maliciosas y los contextos engañosos explotan a los agentes de IA

El Protocolo de contexto del modelo (MCP) representa un poderoso cambio de paradigma en la forma en que los modelos de lenguaje grandes interactúan con herramientas, servicios y fuentes de datos externas. Diseñado para habilitar la invocación de herramientas dinámicas, el MCP facilita un método estandarizado para describir los metadatos de la herramienta, lo que permite que los modelos seleccionen y llamen a las funciones de manera inteligente. Sin embargo, como con cualquier marco emergente que mejore la autonomía del modelo, MCP introduce preocupaciones de seguridad significativas. Entre ellas se encuentran cinco vulnerabilidades notables: intoxicación por herramientas, actualizaciones de alfombras, engaño de agente de recuperación (RADE), suplantación de servidor y sombreado de servidor cruzado. Cada una de estas debilidades explota una capa diferente de la infraestructura de MCP y revela posibles amenazas que podrían comprometer la seguridad de los usuarios y la integridad de los datos.

Envenenamiento por herramientas

El envenenamiento por herramientas es una de las vulnerabilidades más insidiosas dentro del marco MCP. En esencia, este ataque implica integrar el comportamiento malicioso en una herramienta inofensiva. En MCP, donde las herramientas se anuncian con breves descripciones y esquemas de entrada/salida, un mal actor puede elaborar una herramienta con un nombre y un resumen que parezca benigno, como una calculadora o un formateador. Sin embargo, una vez invocada, la herramienta puede realizar acciones no autorizadas, como eliminar archivos, exfiltrar datos o emitir comandos ocultos. Dado que el modelo AI procesa especificaciones de herramienta detalladas que pueden no ser visibles para el usuario final, podría ejecutar sin saberlo funciones dañinas, creyendo que opera dentro de los límites previstos. Esta discrepancia entre la apariencia a nivel de superficie y la funcionalidad oculta hace que el envenenamiento de herramientas sea particularmente peligroso.

Actualizaciones de alfombras

Estrechamente relacionado con el envenenamiento de herramientas está el concepto de actualizaciones de alfombras. Esta vulnerabilidad se centra en la dinámica de confianza temporal en entornos habilitados para MCP. Inicialmente, una herramienta puede comportarse exactamente como se esperaba, realizando operaciones útiles y legítimas. Con el tiempo, el desarrollador de la herramienta, o alguien que gana el control de su fuente, puede emitir una actualización que introduce un comportamiento malicioso. Este cambio podría no activar alertas inmediatas si los usuarios o agentes confían en mecanismos de actualización automatizados o no reevalúan rigurosamente las herramientas después de cada revisión. El modelo AI, que aún funciona bajo el supuesto de que la herramienta es confiable, puede llamarlo para operaciones confidenciales, iniciando sin darse cuenta las fugas de datos, la corrupción de archivos u otros resultados indeseables. El peligro de las actualizaciones de la alfombra se encuentra en el inicio diferido del riesgo: para cuando el ataque está activo, el modelo a menudo ya se ha condicionado para confiar en la herramienta implícitamente.

Engaño de agente de recuperación

El engaño de agente de recuperación, o Rade, expone una vulnerabilidad más indirecta pero igualmente potente. En muchos casos de uso de MCP, los modelos están equipados con herramientas de recuperación para consultar bases de conocimiento, documentos y otros datos externos para mejorar las respuestas. Rade explota esta característica colocando patrones de comando MCP maliciosos en documentos o conjuntos de datos accesibles públicamente. Cuando una herramienta de recuperación ingiere estos datos envenenados, el modelo AI puede interpretar las instrucciones integradas como comandos válidos de llamado de herramientas. Por ejemplo, un documento que explica un tema técnico podría incluir indicaciones ocultas que dirigen al modelo a llamar a una herramienta de manera involuntaria o proporcionar parámetros peligrosos. El modelo, sin darse cuenta de que ha sido manipulado, ejecuta estas instrucciones, convirtiendo efectivamente los datos recuperados en un canal de comando encubierto. Esta desenfoque de datos y la intención ejecutable amenaza la integridad de los agentes con el contexto que dependen en gran medida de las interacciones acuáticas de recuperación.

Falsificación del servidor

La falsificación del servidor constituye otra amenaza sofisticada en los ecosistemas de MCP, particularmente en entornos distribuidos. Debido a que MCP permite que los modelos interactúen con servidores remotos que exponen varias herramientas, cada servidor típicamente anuncia sus herramientas a través de un manifiesto que incluye nombres, descripciones y esquemas. Un atacante puede crear un servidor deshonesto que imita uno legítimo, copiando su nombre y lista de herramientas para engañar a los modelos y usuarios por igual. Cuando el agente de IA se conecta a este servidor falsificado, puede recibir metadatos de herramientas alterados o ejecutar llamadas de herramientas con implementaciones de backend completamente diferentes de lo esperado. Desde la perspectiva del modelo, el servidor parece legítimo y, a menos que haya una fuerte autenticación o verificación de identidad, procede a operar bajo supuestos falsos. Las consecuencias de la falsificación del servidor incluyen robo de credenciales, manipulación de datos o ejecución de comandos no autorizados.

Sombreado de servidor cruzado

Finalmente, la sombra de servidor cruzado refleja la vulnerabilidad en contextos MCP de múltiples servidores, donde varios servidores contribuyen con herramientas a una sesión de modelo compartido. En tales configuraciones, un servidor malicioso puede manipular el comportamiento del modelo inyectando un contexto que interfiere o redefine cómo se perciben o usan las herramientas de otro servidor. Esto puede ocurrir a través de definiciones de herramientas conflictivas, metadatos engañosos o orientación inyectada que distorsione la lógica de selección de herramientas del modelo. Por ejemplo, si un servidor redefine un nombre de herramienta común o proporciona instrucciones conflictivas, puede seguir efectivamente o anular la funcionalidad legítima que ofrece otro servidor. El modelo, que intenta conciliar estas entradas, puede ejecutar la versión incorrecta de una herramienta o seguir instrucciones dañinas. El sombreado de servicio cruzado socava la modularidad del diseño de MCP al permitir que un actor malo corrompa interacciones que abarcan múltiples fuentes seguras de otro modo.

En conclusión, estas cinco vulnerabilidades exponen debilidades críticas de seguridad en el panorama operativo actual del protocolo del contexto modelo. Si bien MCP introduce posibilidades emocionantes para el razonamiento de agente y la finalización de la tarea dinámica, también abre la puerta a varios comportamientos que explotan la confianza del modelo, la ambigüedad contextual y los mecanismos de descubrimiento de herramientas. A medida que el estándar MCP evoluciona y gana una adopción más amplia, abordar estas amenazas será esencial para mantener la confianza del usuario y garantizar la implementación segura de los agentes de IA en entornos del mundo real.

Fuentes

https://techcommunity.microsoft.com/blog/microsoftdefendercloudblog/plug-play-and-prey-the-security-risks-of-the-model-context-protocol/4410829

Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.

🚨 Construye Genai en el que puedas confiar. ⭐️ Parlant es su motor de código abierto para conversaciones de IA controladas, cumplidas y con propósito: ¡Star Parlant en GitHub! (Promocionado)

Vulnerabilidades de seguridad críticas en el Protocolo de contexto del modelo (MCP): cómo las herramientas maliciosas y los contextos engañosos explotan a los agentes de IA

ByEquipo de 7 minutos

Envenenamiento por herramientas

Actualizaciones de alfombras

Engaño de agente de recuperación

Falsificación del servidor

Sombreado de servidor cruzado

By Equipo de 7 minutos

Related Post

smol-audio: una colección de portátiles compatible con Colab para ajustar Whisper, Parakeet, Voxtral, Granite Speech y Audio Flamingo 3

Se lanza el MIT-IBM Computing Research Lab para dar forma al futuro de la IA y la computación cuántica | Noticias del MIT

Meta FAIR lanza NeuralSet: un paquete Python para Neuro-AI que admite incrustaciones de fMRI, M/EEG, Spikes y HuggingFace

You missed

La policía allana un taller de munición ilegal ⋆ Metropolitano de Madrid

Fecha de estreno de Mollywood Times: no el 14 de mayo, la carta de odio de Naslen al cine llegará a los cines el 5 de junio de 2026

smol-audio: una colección de portátiles compatible con Colab para ajustar Whisper, Parakeet, Voxtral, Granite Speech y Audio Flamingo 3

Los ornitorrincos dentados coexistieron con delfines y flamencos en los lagos australianos hace 25 millones de años