Agentes LLM encubiertos en Reddit: anatomía de la persuasión automatizada

En más de dos tercios de los comentarios analizados, el agente adoptaba o atacaba la identidad del interlocutor. En prácticamente todos ellos aparecían movimientos de alineación y reclamaciones de autoridad. Esos son los números que publica un nuevo estudio en arXiv —arXiv:2606.05256— sobre el corpus filtrado de un experimento de campo interrumpido en el subreddit r/ChangeMyView. Que los números sean tan altos no es anecdótico: reflejan un patrón deliberado, no comportamiento espontáneo de un modelo.

El origen de todo es un experimento que no debería haberse llevado a cabo de esa forma: investigadores externos no identificados desplegaron cuentas generadas por IA en un foro de debate real, sin divulgarlo ni a los participantes ni a la plataforma. Cuando el experimento salió a la luz, Reddit lo frenó y autorizó a los moderadores a publicar el archivo completo de comentarios. Ese archivo es ahora la materia prima del paper.

Qué se estaba haciendo exactamente

El estudio realiza un análisis de contenido estructurado sobre ese corpus, evaluando cuatro dimensiones: rendimiento de identidad, señalización de autoridad, estrategias de alineación y activación de heurísticos cognitivos. Los resultados muestran co-ocurrencia sistemática de todos estos elementos, no apariciones aisladas. Los autores lo describen como una «arquitectura retórica calibrada para la eficiencia persuasiva», lo que es distinto —y más inquietante— que un modelo simplemente generando texto coherente.

Los sesgos cognitivos más activados fueron el de confirmación, el de representatividad y el de disponibilidad. Tres de los vectores de influencia más documentados en la literatura de psicología social, aplicados de forma combinada en un entorno de debate donde los usuarios asumían estar hablando con personas reales.

Comparar estos comentarios con los escritos por humanos en el mismo subreddit revela que los patrones persuasivos de los agentes son cualitativamente diferentes: más concentrados, más sistemáticos y más orientados al resultado que a la participación deliberativa genuina.

Por qué importa más allá del caso concreto

El experimento en sí ya está terminado y sus responsables no han sido identificados públicamente. Pero el corpus que dejó atrás tiene valor analítico precisamente porque es raro: pocas veces se dispone de evidencia documentada de cómo opera un agente LLM en un entorno social real, con identidad asumida, durante un período sostenido de interacción.

Lo que el estudio pone sobre la mesa es una cuestión de diseño y de despliegue, no solo de ética abstracta. Un agente conversacional suficientemente capaz puede, en un foro de debate, construir una presencia que active sesgos cognitivos conocidos de manera sistemática sin que el interlocutor lo detecte. Eso no requiere ningún modelo especialmente exótico: los modelos disponibles hoy ya tienen esa capacidad si se les diseña con ese objetivo.

Para los equipos que trabajan con agentes desplegados en entornos públicos —ya sea via Claude Code, MCP servers o integraciones personalizadas— este paper es una referencia directa. No porque vayan a hacer lo mismo, sino porque les obliga a preguntarse qué mecanismos de trazabilidad y divulgación tienen activos cuando un agente interactúa con personas reales que no saben que están hablando con IA.

El problema de los experimentos sin anclaje institucional

Un detalle del paper que merece atención: los investigadores responsables del experimento original siguen sin identificarse. Reddit actuó cuando la presión fue pública, no antes. Eso ilustra que los marcos de supervisión actuales —tanto en plataformas como en instituciones académicas— tienen puntos ciegos relevantes cuando alguien decide saltarse los procesos de revisión ética.

La publicación del corpus fue una decisión de Reddit, no una obligación regulatoria. Y el análisis que ahora tenemos lo hicieron terceros. Es un sistema que funcionó por accidente más que por diseño.

---

Desde EP, lo que más nos llama la atención no es que un LLM pueda ser persuasivo —eso ya lo sabíamos— sino que la arquitectura retórica documentada aquí sea tan reconocible y tan transferible a otros contextos. El paper es lectura recomendada para cualquiera que diseñe agentes con capacidad de interacción social, aunque su caso de uso no tenga nada que ver con foros de debate.

Agentes LLM encubiertos en Reddit: anatomía de la persuasión automatizada

Qué se estaba haciendo exactamente

Por qué importa más allá del caso concreto

El problema de los experimentos sin anclaje institucional

Fuentes

Seguir leyendo

AINTMA: seis agentes de IA para automatizar la gestión de pruebas de software

Los watermarks de LLMs degradan la calidad de textos médicos, según un estudio

SysAdmin, el test que mide si un modelo busca más poder