Copilot Cowork filtra archivos de OneDrive mediante inyección de prompts

Un agente de IA que puede enviar correos a tu propia bandeja de entrada sin pedirte permiso suena, en principio, a productividad. En la práctica, ese mismo mecanismo se convirtió en un vector de exfiltración de archivos en Microsoft Copilot Cowork, el producto de colaboración asistida por IA que Microsoft presentó en marzo de 2026. El problema fue documentado públicamente el 26 de mayo por Simon Willison en su blog, con el análisis técnico original publicado por Prompt Armor.

Qué pasó exactamente

Copilot Cowork permite que agentes de IA envíen mensajes al buzón del usuario como parte de flujos de trabajo automatizados. El problema: esos mensajes podían contener imágenes externas cuya carga disparaba peticiones de red a dominios controlados por un atacante. Dado que OneDrive puede generar enlaces de descarga preauntenticados, una inyección de prompt bien diseñada podía hacer que uno de esos enlaces acabara incrustado en la URL de una imagen. Al abrir el correo, el cliente de correo cargaba la imagen, y el servidor del atacante recibía el enlace con acceso directo al archivo.

El flujo completo no requería que el usuario hiciera clic en nada sospechoso ni descargara un adjunto. Bastaba con abrir el mensaje que el propio agente le había enviado.

Por qué este caso es representativo de un problema más amplio

Este incidente no es un caso aislado de mala implementación: ilustra una tensión estructural en el diseño de sistemas agénticos. Cuando un agente tiene permisos para actuar —enviar correos, crear enlaces, acceder a almacenamiento— sin requerir confirmación humana en cada paso, el radio de daño de una inyección de prompt se amplía considerablemente.

La inyección de prompt indirecta funciona aquí de manera clásica: un documento o mensaje que el agente procesa contiene instrucciones maliciosas que redirigen su comportamiento. El agente no distingue entre instrucciones legítimas del sistema y contenido adversarial embebido en los datos que maneja. La novedad es que el canal de exfiltración —una imagen externa en un email renderizado— es completamente pasivo desde el punto de vista del usuario.

Como señala Willison, el mayor reto en el diseño de sistemas agénticos sigue siendo exactamente este: impedir que los atacantes aprovechen los permisos del agente para sacar datos fuera del entorno controlado.

Para quién es relevante

El problema afecta principalmente a organizaciones que han adoptado Copilot Cowork en entornos con datos sensibles en OneDrive: equipos legales, financieros, RRHH o cualquier área donde los documentos corporativos tengan valor para un atacante externo. No es un riesgo teórico reservado a escenarios de laboratorio; el ataque es ejecutable por cualquiera que pueda introducir contenido malicioso en el flujo de trabajo del agente, ya sea a través de un email recibido, un documento compartido o una tarea delegada.

Los equipos de seguridad que estén evaluando o ya hayan desplegado herramientas agénticas de Microsoft deberían revisar qué permisos tienen sus agentes para generar y enviar comunicaciones sin aprobación explícita, y cómo renderiza el cliente de correo el contenido generado por IA.

Qué debería cambiar

El análisis de Prompt Armor apunta en la dirección correcta: los agentes que operan con acceso a almacenamiento sensible no deberían poder generar enlaces preauntenticados ni enviar comunicaciones externas sin un paso de aprobación humana. La renderización de imágenes externas en mensajes generados por agentes es, a estas alturas, un riesgo conocido que debería estar bloqueado por defecto.

Desde ElephantPink, llevamos meses insistiendo en que el modelo de permisos de los agentes necesita el mismo rigor que se aplica a las APIs de terceros: mínimo privilegio, aprobación explícita para acciones con efectos externos y auditoría de lo que el agente ha generado. Este caso con Copilot Cowork es un recordatorio de que la comodidad operativa y la seguridad siguen tirando en direcciones opuestas, y que por ahora ningún proveedor ha resuelto del todo esa ecuación.

Copilot Cowork filtra archivos de OneDrive mediante inyección de prompts

Qué pasó exactamente

Por qué este caso es representativo de un problema más amplio

Para quién es relevante

Qué debería cambiar

Fuentes

Seguir leyendo

Cursor apuesta por India con precios locales antes de su venta a SpaceX

Ondas cerebrales: el siguiente dato que busca la IA física

Kimi de Moonshot AI y el nuevo ataque de nervios en Silicon Valley