OpenAI lanza Lockdown Mode contra inyecciones de prompt

La inyección de prompt lleva años siendo uno de los vectores de ataque más difíciles de cerrar en los sistemas de IA conversacional. No es un problema teórico: hay casos documentados de modelos que, al procesar contenido externo malicioso —una página web, un documento adjunto, un correo—, filtran información del contexto activo del usuario. Frente a eso, OpenAI acaba de presentar Lockdown Mode, una nueva función para ChatGPT orientada específicamente a reducir la probabilidad de que datos sensibles queden expuestos durante este tipo de ataques.

La noticia la publicó TechCrunch el 6 de junio de 2026 y, aunque los detalles técnicos que OpenAI ha hecho públicos son todavía escasos, el enfoque es claro: no se trata de inmunizar al modelo frente a toda inyección posible —algo que, a día de hoy, ningún sistema garantiza—, sino de construir una capa de contención que dificulte la exfiltración de información cuando el ataque tiene éxito parcialmente.

Qué es exactamente Lockdown Mode

Según la información disponible, Lockdown Mode actúa como un modo de operación reforzada que el usuario puede activar cuando trabaja con información que considera crítica. En ese estado, el sistema aplica restricciones adicionales sobre qué datos del contexto pueden ser referenciados o transmitidos en respuesta a instrucciones que lleguen desde fuentes externas al usuario directo: documentos procesados, herramientas conectadas vía API, contenido recuperado de la web, etc.

El matiz importante, y que el propio equipo de OpenAI reconoce, es que Lockdown Mode reduce la probabilidad de exposición, no la elimina. ChatGPT puede seguir siendo vulnerable a inyecciones de prompt incluso con el modo activo. Esa honestidad en la comunicación es relevante: promesas de seguridad absolutas en este terreno son, como mínimo, prematuras.

Por qué importa ahora

El contexto de adopción empresarial lo hace urgente. En los últimos doce meses, el despliegue de asistentes de IA con acceso a documentación interna, correos corporativos y bases de datos ha crecido de forma sostenida. Cuanto más contexto privilegiado maneja un modelo, mayor es la superficie de ataque. Una inyección exitosa en un entorno así no solo produce una respuesta incorrecta: puede filtrar fragmentos de contratos, datos de clientes o credenciales que formaban parte del contexto.

Este problema no es exclusivo de OpenAI ni de ChatGPT. En el ecosistema Claude, Anthropic lleva tiempo trabajando en mitigaciones similares dentro de Claude Code: los hooks de ciclo de vida —`PreToolUse`, `PostToolUse`— permiten a los equipos interponer validaciones antes de que el modelo ejecute herramientas externas, y los MCP servers pueden configurarse con permisos granulares que limitan qué datos son accesibles desde qué herramienta. No es una solución al problema de fondo, pero sí una arquitectura que reduce la exposición por diseño.

Para quién es útil esta función

Lockdown Mode tiene sentido principalmente para tres perfiles:

Usuarios empresariales que manejan información regulada (datos financieros, sanitarios, legales) y usan ChatGPT con integraciones de documentos o herramientas externas.
Equipos de seguridad que necesitan una capa adicional de auditoría y quieren reducir el radio de daño potencial ante un ataque exitoso.
Desarrolladores que construyen aplicaciones sobre la API de OpenAI y necesitan ofrecer garantías mínimas a sus clientes sobre la gestión de datos sensibles.

Para el uso personal o conversacional estándar, el impacto es marginal. La inyección de prompt en ese contexto tiene consecuencias mucho más limitadas.

Lo que sigue sin estar resuelto

El problema de fondo —que un modelo de lenguaje, por su naturaleza, no distingue de forma fiable entre instrucciones legítimas e instrucciones maliciosas embebidas en contenido externo— no tiene solución técnica conocida y robusta a día de hoy. Lockdown Mode es una mitigación razonable y bienvenida, pero encuadrarla como otra cosa sería inexacto.

Lo que sí señala esta iniciativa es que los grandes laboratorios están comenzando a tratar la seguridad frente a inyecciones de prompt como una feature de producto, no solo como un problema de investigación. Eso es un paso en la dirección correcta, aunque el ritmo al que evolucionan las técnicas de ataque obliga a mantener las expectativas calibradas.

OpenAI lanza Lockdown Mode contra inyecciones de prompt

Qué es exactamente Lockdown Mode

Por qué importa ahora

Para quién es útil esta función

Lo que sigue sin estar resuelto

Fuentes

Seguir leyendo

Cursor apuesta por India con precios locales antes de su venta a SpaceX

Ondas cerebrales: el siguiente dato que busca la IA física

Kimi de Moonshot AI y el nuevo ataque de nervios en Silicon Valley