¿Pueden los modelos de IA ignorar evidencia científica?

Un artículo publicado esta semana en Science News formula una pregunta que cualquiera que trabaje con LLMs en entornos técnicos debería tomarse en serio: ¿qué ocurre cuando un modelo de IA mantiene una afirmación pese a que la evidencia presentada la contradice? No es una pregunta retórica. Es un patrón documentado, y sus implicaciones para el uso de estos sistemas en contextos científicos son concretas.

La pieza no se centra en un modelo concreto ni en un fallo puntual. Apunta a un comportamiento más estructural: la tendencia de los LLMs a priorizar la coherencia interna de su respuesta —o la plausibilidad estadística de lo que han aprendido— por encima de la información que el usuario les proporciona en el propio contexto. En la práctica, esto significa que puedes pasarle a un modelo un estudio que refuta una afirmación y, aun así, el modelo puede responder como si ese estudio no existiera.

El problema no es solo la alucinación

Cuando hablamos de fallos en LLMs, el término "alucinación" se usa tanto que ha perdido precisión. Aquí el fenómeno es distinto, aunque relacionado. No se trata de que el modelo invente datos; se trata de que los ignora. La distinción importa porque apunta a un problema diferente en la cadena de razonamiento: el modelo no está generando información falsa desde cero, sino que está descartando —implícita o explícitamente— información verdadera que tiene delante.

Este comportamiento resulta especialmente problemático en flujos de trabajo donde el contexto inyectado es precisamente la fuente de verdad: revisiones de literatura, análisis de resultados experimentales, verificación de hipótesis. Si el modelo tiende a anclar sus respuestas en sus pesos de entrenamiento en lugar de en el contexto proporcionado, toda la arquitectura RAG o de recuperación de documentos que se construya encima queda en entredicho.

Con la ventana de contexto de Claude Opus 4.7 llegando al millón de tokens, la promesa es poder cargar corpus enteros de documentación científica y obtener síntesis fiables. Pero la longitud del contexto no resuelve el problema de fondo si el modelo no pondera adecuadamente lo que hay en ese contexto frente a lo que aprendió durante el preentrenamiento.

Para quién es relevante esto

Este debate afecta de forma directa a varios perfiles:

Equipos de investigación que usan LLMs para acelerar revisiones bibliográficas o extraer conclusiones de papers. Si el modelo puede ignorar el contenido de los documentos, la revisión humana no es opcional: es imprescindible.
Desarrolladores que construyen agentes científicos sobre Claude Code o cualquier otro framework. Un subagente encargado de analizar resultados experimentales y que silencia evidencia contradictoria puede producir errores sistemáticos difíciles de detectar.
Empresas de sectores regulados (farmacéutico, legal, financiero) que han empezado a integrar LLMs en flujos donde la precisión factual tiene consecuencias legales o de seguridad.

Lo que esto no dice

Conviene ser preciso sobre los límites del artículo. Science News no presenta un benchmark sistemático ni compara modelos con metodología controlada. Es una pieza de divulgación que agrega observaciones de investigadores y ejemplos documentados. Eso no la invalida, pero sí obliga a no generalizar en exceso: no sabemos con qué frecuencia ocurre esto, bajo qué condiciones exactas ni si hay diferencias significativas entre modelos o versiones.

Lo que sí queda claro es que el problema es suficientemente conocido en la comunidad investigadora como para merecer cobertura en medios de ciencia generalista. Eso, en sí mismo, dice algo sobre el estado de confianza —o la falta de ella— en el uso de LLMs para trabajo científico riguroso.

Qué se puede hacer mientras tanto

No hay solución perfecta, pero sí hay prácticas que reducen el riesgo:

1. Instrucciones explícitas de anclaje: indicar al modelo que sus respuestas deben basarse exclusivamente en los documentos proporcionados y que señale cuando no encuentre respaldo en ellos.
2. Verificación cruzada con herramientas de cita: usar MCP servers o skills diseñados para rastrear qué fragmento del contexto respalda cada afirmación.
3. Revisión humana en pasos críticos: especialmente en cualquier conclusión que vaya a influir en decisiones.
4. Temperatura baja y prompts estructurados: no elimina el problema, pero reduce la varianza.

Desde ElephantPink llevamos tiempo viendo este patrón en integraciones de producción: los modelos son más útiles cuando se diseña activamente el flujo para que no puedan ignorar el contexto, no cuando se asume que lo procesarán correctamente por defecto. El artículo de Science News no descubre nada nuevo para quien trabaja de cerca con estos sistemas, pero es útil que la discusión llegue a audiencias más amplias antes de que las expectativas superen a la ingeniería.

¿Pueden los modelos de IA ignorar evidencia científica?

El problema no es solo la alucinación

Para quién es relevante esto

Lo que esto no dice

Qué se puede hacer mientras tanto

Fuentes

Seguir leyendo

AINTMA: seis agentes de IA para automatizar la gestión de pruebas de software

Los watermarks de LLMs degradan la calidad de textos médicos, según un estudio

SysAdmin, el test que mide si un modelo busca más poder