Cuando los papers de IA parecen buenos pero no lo son

El verano pasado, el supervisor postdoctoral de Peter Degen llegó a él con un problema poco habitual: uno de sus artículos estaba siendo citado demasiado. Las citas son la moneda de cambio de la academia, pero había algo raro en estas. El paper en cuestión, publicado en 2017, evaluaba la precisión de un tipo concreto de análisis estadístico sobre datos epidemiológicos —un trabajo técnico y especializado, no exactamente el material que se vuelve viral. Lo que estaba pasando, según recoge The Verge, es que una oleada de nuevos artículos generados o asistidos por IA lo citaban sin que sus autores parecieran haber leído —ni entendido— el original.

Ese episodio resume bien un problema que lleva meses gestándose en silencio: los artículos científicos producidos con ayuda de modelos de lenguaje ya no son fácilmente identificables por su mala redacción o su estructura torpe. Ahora suenan coherentes, fluyen bien y tienen la apariencia formal de investigación legítima. El problema es que, debajo de esa superficie pulida, el rigor metodológico brilla por su ausencia.

El paper que suena bien pero falla en lo esencial

Durante años, los editores y revisores podían filtrar el ruido académico de baja calidad, en parte, porque era reconocible: prosa entrecortada, referencias inconexas, conclusiones infladas. Los LLM han eliminado esas señales superficiales. Un artículo generado con asistencia de IA puede tener una introducción impecable, una sección de métodos que parece coherente y unas conclusiones que encajan con el abstract —y aun así citar estudios que no dicen lo que el autor afirma, o aplicar análisis estadísticos de forma incorrecta.

Esto convierte la revisión por pares en una tarea cualitativamente más difícil. Antes, el revisor podía descartar un trabajo mediocre en la primera lectura. Ahora tiene que hacer el mismo trabajo de fondo que haría con un paper serio, porque el texto no da pistas tempranas de sus deficiencias. El volumen de envíos a revistas científicas ha crecido de forma notable en los últimos dieciocho meses —algunas publicaciones reportan incrementos del 30-50 % en recepciones—, y una parte significativa de ese crecimiento no viene acompañada de un aumento equivalente en la calidad real.

El problema de las citas fantasma

El caso de Degen apunta a una disfunción concreta: los modelos de lenguaje, cuando asisten en la redacción de un paper, tienden a buscar referencias que avalen afirmaciones generales. Si el modelo ha procesado suficiente literatura sobre un tema, puede recuperar títulos reales y asociarlos a afirmaciones plausibles aunque la conexión sea forzada o directamente incorrecta. El resultado son citas que existen, de papers que existen, pero que no respaldan lo que el nuevo artículo dice que respaldan.

Esto no es alucinación en el sentido clásico —el modelo no se inventa un DOI inexistente—, sino algo más sutil: una deformación del significado de la fuente original. Para el sistema de métricas académicas, esas citas cuentan igual. El índice h de un investigador sube. El paper citado gana visibilidad. Y la cadena de conocimiento se va cargando de eslabones defectuosos que son difíciles de identificar sin leer en profundidad.

Para quién es esto un problema urgente

Los más afectados a corto plazo son los equipos editoriales de revistas científicas, especialmente en disciplinas con alta producción de papers como biomedicina, epidemiología o ciencias del clima. También los investigadores jóvenes, que compiten por publicar en un mercado donde el volumen de trabajos superficialmente correctos ha aumentado y los tiempos de revisión se están alargando.

Para quienes construyen herramientas sobre LLMs —incluyendo integraciones con APIs como la de Anthropic—, este escenario es un recordatorio de que la utilidad de un modelo no se mide solo por la fluidez de su output. Un sistema que ayuda a redactar investigación científica sin mecanismos de verificación de fuentes no está ayudando a la ciencia: está añadiendo ruido bien vestido.

Las propuestas que circulan en el sector van desde sistemas de detección específicos para papers académicos hasta cambios en los procesos editoriales que obliguen a los autores a declarar el uso de IA y a verificar manualmente cada cita. Ninguna solución es sencilla ni rápida.

---

Desde EP, esto nos parece uno de los efectos secundarios más serios y menos espectaculares de la expansión de los LLM: no los errores obvios, sino los errores que pasan el filtro. La academia tardó décadas en construir normas de integridad científica; el ritmo al que se están sometiendo a presión es, cuanto menos, preocupante.

Cuando los papers de IA parecen buenos pero no lo son

El paper que suena bien pero falla en lo esencial

El problema de las citas fantasma

Para quién es esto un problema urgente

Fuentes

Seguir leyendo

AINTMA: seis agentes de IA para automatizar la gestión de pruebas de software

Los watermarks de LLMs degradan la calidad de textos médicos, según un estudio

SysAdmin, el test que mide si un modelo busca más poder