Cuando los papers de IA parecen buenos pero no lo son
La mejora superficial de los artículos científicos generados con IA está saturando la revisión por pares y distorsionando citas en disciplinas como la epidemiología.
El verano pasado, el supervisor postdoctoral de Peter Degen llegó a él con un problema poco habitual: uno de sus artículos estaba siendo citado demasiado. Las citas son la moneda de cambio de la academia, pero había algo raro en estas. El paper en cuestión, publicado en 2017, evaluaba la precisión de un tipo concreto de análisis estadístico sobre datos epidemiológicos —un trabajo técnico y especializado, no exactamente el material que se vuelve viral. Lo que estaba pasando, según recoge The Verge, es que una oleada de nuevos artículos generados o asistidos por IA lo citaban sin que sus autores parecieran haber leído —ni entendido— el original.
Ese episodio resume bien un problema que lleva meses gestándose en silencio: los artículos científicos producidos con ayuda de modelos de lenguaje ya no son fácilmente identificables por su mala redacción o su estructura torpe. Ahora suenan coherentes, fluyen bien y tienen la apariencia formal de investigación legítima. El problema es que, debajo de esa superficie pulida, el rigor metodológico brilla por su ausencia.
El paper que suena bien pero falla en lo esencial
Durante años, los editores y revisores podían filtrar el ruido académico de baja calidad, en parte, porque era reconocible: prosa entrecortada, referencias inconexas, conclusiones infladas. Los LLM han eliminado esas señales superficiales. Un artículo generado con asistencia de IA puede tener una introducción impecable, una sección de métodos que parece coherente y unas conclusiones que encajan con el abstract —y aun así citar estudios que no dicen lo que el autor afirma, o aplicar análisis estadísticos de forma incorrecta.
Esto convierte la revisión por pares en una tarea cualitativamente más difícil. Antes, el revisor podía descartar un trabajo mediocre en la primera lectura. Ahora tiene que hacer el mismo trabajo de fondo que haría con un paper serio, porque el texto no da pistas tempranas de sus deficiencias. El volumen de envíos a revistas científicas ha crecido de forma notable en los últimos dieciocho meses —algunas publicaciones reportan incrementos del 30-50 % en recepciones—, y una parte significativa de ese crecimiento no viene acompañada de un aumento equivalente en la calidad real.
El problema de las citas fantasma
El caso de Degen apunta a una disfunción concreta: los modelos de lenguaje, cuando asisten en la redacción de un paper, tienden a buscar referencias que avalen afirmaciones generales. Si el modelo ha procesado suficiente literatura sobre un tema, puede recuperar títulos reales y asociarlos a afirmaciones plausibles aunque la conexión sea forzada o directamente incorrecta. El resultado son citas que existen, de papers que existen, pero que no respaldan lo que el nuevo artículo dice que respaldan.
Esto no es alucinación en el sentido clásico —el modelo no se inventa un DOI inexistente—, sino algo más sutil: una deformación del significado de la fuente original. Para el sistema de métricas académicas, esas citas cuentan igual. El índice h de un investigador sube. El paper citado gana visibilidad. Y la cadena de conocimiento se va cargando de eslabones defectuosos que son difíciles de identificar sin leer en profundidad.
Para quién es esto un problema urgente
Los más afectados a corto plazo son los equipos editoriales de revistas científicas, especialmente en disciplinas con alta producción de papers como biomedicina, epidemiología o ciencias del clima. También los investigadores jóvenes, que compiten por publicar en un mercado donde el volumen de trabajos superficialmente correctos ha aumentado y los tiempos de revisión se están alargando.
Para quienes construyen herramientas sobre LLMs —incluyendo integraciones con APIs como la de Anthropic—, este escenario es un recordatorio de que la utilidad de un modelo no se mide solo por la fluidez de su output. Un sistema que ayuda a redactar investigación científica sin mecanismos de verificación de fuentes no está ayudando a la ciencia: está añadiendo ruido bien vestido.
Las propuestas que circulan en el sector van desde sistemas de detección específicos para papers académicos hasta cambios en los procesos editoriales que obliguen a los autores a declarar el uso de IA y a verificar manualmente cada cita. Ninguna solución es sencilla ni rápida.
---
Desde EP, esto nos parece uno de los efectos secundarios más serios y menos espectaculares de la expansión de los LLM: no los errores obvios, sino los errores que pasan el filtro. La academia tardó décadas en construir normas de integridad científica; el ritmo al que se están sometiendo a presión es, cuanto menos, preocupante.
Fuentes
Seguir leyendo
LLMs generalistas superan a la IA clínica especializada en benchmarks médicos
Un estudio publicado en Nature Medicine muestra que los modelos de lenguaje de propósito general obtienen mejores resultados que sistemas clínicos especializados en evaluaciones médicas estandarizadas.
ToolSense: cómo auditar lo que un LLM sabe sobre sus herramientas
Un nuevo framework de diagnóstico publicado en arXiv revela que los modelos que recuperan herramientas parametricamente pueden obtener buenas métricas sin entender realmente qué hace cada tool.
Business World Model: cuando los agentes AI aprenden a razonar sobre empresas
Un paper de arXiv propone una arquitectura formal para que los agentes AI no solo ejecuten tareas, sino que modelen el estado y la dinámica de un negocio completo antes de actuar.