El debate sobre el 'pensamiento simulado' en los LLM

Un artículo publicado este lunes en Machine Society bajo el título "AI researchers want AI to fake 'thinking'" ha vuelto a poner sobre la mesa una pregunta que lleva años rondando los laboratorios de IA: ¿tiene sentido diseñar modelos que simulen deliberar antes de responder, aunque ese proceso no refleje lo que ocurre realmente dentro de la red neuronal? La pieza tiene apenas un punto y un comentario en Hacker News, pero la cuestión que plantea merece más atención de la que ha recibido.

La idea no es nueva. Técnicas como chain-of-thought prompting, tree-of-thought o el extended thinking que Anthropic incorporó en Claude Opus 4.7 comparten una premisa común: hacer que el modelo externalice pasos intermedios antes de dar una respuesta final. Los resultados en benchmarks son consistentemente mejores. El problema —y aquí está la fricción— es filosófico y práctico a la vez.

¿Razonar o aparentar razonar?

Cuando un modelo produce una cadena de pasos antes de su respuesta, hay dos lecturas posibles. La primera, optimista: esos pasos intermedios guían genuinamente la computación hacia una solución más precisa, de forma análoga a cómo un humano trabaja en borrador antes de redactar en limpio. La segunda, más escéptica: el modelo genera esos pasos porque el corpus de entrenamiento está lleno de textos humanos que razonan en voz alta, y aprendió a imitarlos sin que eso implique ningún proceso interno real de deliberación.

Lo que señala el artículo de Machine Society es que una parte de la investigación actual parece inclinarse conscientemente hacia el segundo escenario: diseñar sistemas que produzcan la apariencia de pensamiento porque eso mejora la usabilidad y la confianza del usuario, aunque los ingenieros saben que es, en buena medida, teatro. El argumento es pragmático: si funciona, ¿qué importa si es «real»?

Por qué importa la distinción

Importa, al menos, por tres razones concretas.

Primero, la auditabilidad. Si los pasos de razonamiento visibles son un artefacto de presentación y no reflejan el proceso interno, usar esas trazas para depurar o auditar el comportamiento del modelo es un ejercicio engañoso. Una empresa que revise por qué Claude tomó cierta decisión leyendo su cadena de pensamiento podría estar interpretando una narrativa post-hoc, no la causa real.

Segundo, la confianza calibrada. Los usuarios que ven un modelo «pensar paso a paso» tienden a confiar más en su output. Si ese proceso es decorativo, estamos induciendo una confianza que no está justificada por la fiabilidad real del sistema. Esto es especialmente relevante en usos profesionales —medicina, derecho, ingeniería— donde la sobrestimación de la precisión del modelo puede tener consecuencias directas.

Tercero, el diseño de sistemas agénticos. En arquitecturas como las que permite Claude Code —con subagentes, hooks y skills encadenados— los pasos de razonamiento intermedios se usan a veces para tomar decisiones sobre qué herramienta invocar a continuación. Si esos pasos son teatro, la fiabilidad de toda la cadena agéntica depende de un andamiaje que nadie entiende del todo.

El lado pragmático del argumento

Dicho lo anterior, hay una postura razonable en el bando contrario. Que el «pensamiento» de un LLM no sea idéntico al humano no lo convierte automáticamente en fraude. Los modelos que producen pasos intermedios cometen menos errores en tareas complejas: eso es empíricamente consistente y no depende de que el razonamiento sea «auténtico» en ningún sentido filosófico profundo. La ingeniería tiene una larga tradición de usar abstracciones útiles aunque no sean literalmente precisas.

El problema es que la industria tiende a vender esas abstracciones hacia fuera como si fueran la realidad, y eso sí crea expectativas distorsionadas. Hay diferencia entre decir «el modelo produce trazas de razonamiento que mejoran su precisión» y decir «el modelo piensa antes de responder».

Para quién es relevante esto

El debate interesa sobre todo a tres perfiles: investigadores que diseñan arquitecturas de razonamiento, equipos de producto que deciden cómo presentar las capacidades del modelo a usuarios finales, y responsables de compliance en organizaciones que usan IA en procesos críticos. Para los tres, la distinción entre razonamiento funcional y razonamiento simulado tiene implicaciones distintas pero igual de concretas.

---

Desde ElephantPink llevamos tiempo observando que la industria tiene un problema de vocabulario más que de tecnología: los términos se toman prestados de la psicología humana con demasiada ligereza. El artículo de Machine Society no resuelve el debate, pero hace bien en ponerle nombre.

El debate sobre el 'pensamiento simulado' en los LLM

¿Razonar o aparentar razonar?

Por qué importa la distinción

El lado pragmático del argumento

Para quién es relevante esto

Fuentes

Seguir leyendo

Diseño conversacional para museos: del monólogo al diálogo con IA

¿Matará la IA al artículo científico tal como lo conocemos?

Anthropic explica por qué entrena a Claude con razonamiento moral, no solo con reglas