CaVe-VLM-CoT: un framework que obliga a los VLMs a citar sus fuentes

Los modelos visión-lenguaje (VLMs) generan texto fluido y aparentemente bien fundamentado, pero con frecuencia inventan detalles que no están en la imagen. No es un problema menor: en dominios como la medicina o la ciencia, una descripción visualmente infiel puede ser peor que ninguna descripción. Un paper publicado esta semana en arXiv —arXiv:2606.18385— cuantifica ese problema con una precisión inusual y propone una arquitectura concreta para contenerlo.

El trabajo mide 87,1 % de exactitud sobre ScienceQA y 55,2 % sobre MMMU sin modificar ninguna arquitectura base ni reescribir prompts. Lo que cambia es el andamiaje que rodea al modelo.

Qué propone CaVe-VLM-CoT

El framework se articula en cinco módulos encadenados: Extractor, Retriever, Solver, Citation Injector y Verifier. La clave está en el bucle de retroalimentación: cuando el Verifier detecta una afirmación no fundamentada en evidencia recuperada, no se limita a marcarla como error; devuelve señal estructurada al Extractor para que reintente la recuperación apuntando exactamente al fragmento problemático.

Eso es lo que los autores denominan agentic-RAG de bucle cerrado: el fallo de verificación no termina el proceso, lo relanza de forma dirigida. Los métodos de cadena de razonamiento habituales y los sistemas RAG convencionales no hacen eso; se limitan a concatenar contexto recuperado sin comprobar si cada paso del razonamiento está efectivamente respaldado por ese contexto.

El problema de medir lo que nadie medía

Una de las aportaciones más prácticas del paper no es el pipeline en sí, sino la batería de métricas que lo acompaña. Los autores argumentan —con razón— que no existe ningún marco de evaluación que mida simultáneamente calidad de retrieval, fidelidad de citación paso a paso y anclaje cross-modal. Para cubrirlo, proponen 23 métricas por componente, agrupadas bajo CaVeScore, una métrica compuesta que pondera exactitud, precisión y recall de citas, atribución y grounding de evidencia.

Sin ese tipo de instrumentación granular, comparar sistemas RAG aplicados a VLMs es en gran medida comparar cajas negras. Un modelo puede obtener buena exactitud final aun cuando la mitad de sus pasos intermedios estén inventados. CaVeScore intenta hacer visible esa diferencia: en ScienceQA el sistema alcanza 56,6 puntos; en MMMU, 35,7, lo que refleja la dificultad significativamente mayor de ese benchmark multidisciplinar.

Para quién es relevante

Este trabajo interesa principalmente a tres perfiles:

Equipos que construyen pipelines RAG sobre VLMs para casos de uso donde la trazabilidad importa: diagnóstico por imagen, análisis de documentos técnicos, revisión científica automatizada.
Investigadores de evaluación de LLMs y VLMs que necesitan métricas más finas que la exactitud de respuesta final. Las 23 métricas propuestas son un punto de partida concreto para auditorías de pipeline.
Ingenieros de integración que trabajan con herramientas como Claude Code o servidores MCP donde la respuesta del modelo debe ser verificable: la arquitectura de bucle cerrado de CaVe-VLM-CoT es directamente trasladable a flujos de subagentes con etapas de verificación explícitas.

Limitaciones que el paper no oculta

Los resultados sobre MMMU —55,2 % de exactitud— son modestos para un benchmark que los mejores modelos actuales ya superan con holgura sin RAG. Los propios autores reconocen implícitamente que el framework añade latencia y complejidad de orquestación, lo que no lo hace adecuado para todos los casos. Tampoco está claro aún cómo escala el bucle de retroalimentación cuando el Verifier falla de forma sistemática en un dominio visual poco representado en el corpus de retrieval.

Eso dicho, la contribución metodológica —el conjunto de métricas y la formalización del bucle cerrado— tiene valor independiente de los números concretos en estos benchmarks.

---

Opinión EP: CaVe-VLM-CoT no resuelve las alucinaciones en VLMs, pero sí ofrece algo más útil a corto plazo: un vocabulario común y medible para hablar de cuándo y cómo falla cada etapa del pipeline. Eso es exactamente lo que faltaba antes de poder comparar soluciones con rigor.

CaVe-VLM-CoT: un framework que obliga a los VLMs a citar sus fuentes

Qué propone CaVe-VLM-CoT

El problema de medir lo que nadie medía

Para quién es relevante

Limitaciones que el paper no oculta

Fuentes

Seguir leyendo

OpenAI publica diez avances en matemáticas y computación teórica

RL frente a SFT: qué cambia dentro del modelo al razonar

Un wiki mantenido por agentes LLM para no perder el conocimiento del equipo