¿Puede tu agente borrar la base de datos de producción?

El pasado martes 2 de junio, un vídeo con una pregunta directa al hueso circuló por Hacker News bajo el titular «Can your agent delete your production database?». El título no es retórico: es exactamente el tipo de pregunta que muchos equipos deberían responder antes de desplegar un agente con acceso a herramientas reales, y que demasiados todavía no se han hecho.

Que la pieza haya encontrado eco en Hacker News, aunque sea modesto en puntos, refleja una preocupación que lleva meses creciendo en silencio en los foros técnicos: la brecha entre lo que un agente puede hacer y lo que debería poder hacer.

El problema no es nuevo, pero se ha vuelto urgente

Con la madurez de Claude Code y la proliferación de servidores MCP que conectan agentes a bases de datos, APIs internas, sistemas de ficheros y pipelines CI/CD, la superficie de ataque —o simplemente de error accidental— se ha ampliado de forma significativa. Un agente con un MCP server configurado para acceso a PostgreSQL y permisos mal acotados no necesita ser malicioso para hacer daño: basta con que interprete mal una instrucción, siga un razonamiento plausible pero equivocado, o ejecute una herramienta sin solicitar confirmación.

En el ecosistema actual de Claude, los hooks permiten interceptar eventos del ciclo de vida —`PreToolUse`, `PostToolUse`, `Stop`— y ejecutar lógica de validación antes de que una acción se materialice. Es una capa de control útil, pero que requiere implementación explícita y consciente por parte del equipo que despliega el agente. No está activada por defecto, y la mayoría de tutoriales y plantillas de inicio rápido no la incluyen.

¿Qué puede salir mal, concretamente?

Sin ánimo de ser exhaustivos, los vectores más habituales que hemos visto en integraciones reales son:

Instrucciones ambiguas: «Limpia los datos de prueba» puede interpretarse como truncar tablas de staging… o las de producción si el contexto no es suficientemente explícito.
Permisos excesivos en el MCP server: Conectar un agente con credenciales de base de datos que tienen permisos de escritura y borrado cuando el caso de uso solo requiere lectura.
Ausencia de confirmación humana en operaciones destructivas: Sin un hook `PreToolUse` que pause y solicite aprobación, el agente ejecuta directamente.
Prompt injection en datos externos: Un agente que lee ficheros o respuestas de APIs puede recibir instrucciones maliciosas embebidas en esos datos.

Ninguno de estos escenarios es ciencia ficción. Son situaciones documentadas en repositorios públicos y discusiones internas de equipos que trabajan con agentes en producción.

Principio de mínimo privilegio, también para agentes

La respuesta técnica no es nueva: el principio de mínimo privilegio lleva décadas siendo buena práctica en seguridad de sistemas. Aplicado a agentes, significa definir con precisión qué herramientas tiene disponibles, qué operaciones puede ejecutar cada herramienta y en qué entornos.

En Claude Code esto se traduce en:

1. Configurar MCP servers con credenciales de solo lectura salvo que la escritura sea estrictamente necesaria.
2. Usar hooks `PreToolUse` para interceptar llamadas a herramientas destructivas y requerir confirmación explícita o validar contra una lista blanca de operaciones permitidas.
3. Separar entornos de forma que el agente que accede a datos de producción no sea el mismo que ejecuta tareas de desarrollo o limpieza.
4. Registrar todas las llamadas a herramientas mediante hooks `PostToolUse` para auditoría posterior.
5. Definir skills con alcance limitado en lugar de dar al agente acceso irrestricto al contexto completo del sistema.

Nada de esto es complejo de implementar, pero sí requiere tiempo de diseño que muchos equipos saltan cuando la presión por entregar es alta.

Para quién es relevante esto

Este tipo de análisis interpela directamente a equipos de ingeniería que están integrando Claude Code o agentes basados en Claude Opus 4.7 o Sonnet 4.6 en flujos de trabajo con acceso a infraestructura real. También a responsables de seguridad que todavía no tienen políticas claras para agentes de IA, y a cualquier persona que haya configurado un MCP server contra una base de datos sin pararse a pensar en los permisos.

El vídeo original puede verse aquí. No hemos podido revisarlo en detalle antes de publicar, pero la pregunta que plantea merece tiempo de reflexión independientemente del contenido específico.

---

Opinión EP: La velocidad de adopción de agentes con herramientas está superando con claridad la madurez de las prácticas de seguridad alrededor de ellos. No hace falta un escenario catastrófico para tomarse esto en serio: un borrado accidental en producción a las tres de la tarde de un martes es suficiente argumento.

¿Puede tu agente borrar la base de datos de producción?

El problema no es nuevo, pero se ha vuelto urgente

¿Qué puede salir mal, concretamente?

Principio de mínimo privilegio, también para agentes

Para quién es relevante esto

Fuentes

Seguir leyendo

Un case study de seis meses: plataforma de AI trainers y job board

PyPI bloquea archivos nuevos en versiones de más de 14 días

sqlite-utils 4.1 permite insertar filas con código Python