ToolSense: cómo auditar lo que un LLM sabe sobre sus herramientas

Hay un problema silencioso en los sistemas de agentes que manejan catálogos grandes de herramientas: los modelos pueden puntuar bien en los benchmarks estándar de recuperación y, al mismo tiempo, no tener ni idea de lo que hace la mayoría de esas herramientas. Un paper publicado el 12 de junio en arXiv —ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs— lo demuestra de forma metódica y propone un marco de diagnóstico para detectarlo.

El trabajo parte de una observación concreta: los benchmarks de referencia como ToolBench utilizan consultas verbosas y completamente especificadas, y aplican decodificación restringida que fuerza al modelo a elegir entre rutas de tokens válidas. En esas condiciones, es fácil obtener cifras altas sin que el modelo comprenda realmente la semántica de las tools. Es el equivalente a aprobar un examen tipo test de memoria sin haber entendido el temario.

Qué propone ToolSense

ToolSense es un framework open-source que, dado cualquier catálogo de herramientas como entrada, genera automáticamente tres benchmarks distintos:

Realistic Retrieval Benchmark (RRB): consultas organizadas en tres niveles de ambigüedad, desde las más explícitas hasta las que imitan cómo los usuarios reales describen lo que necesitan —sin mencionar directamente la herramienta—.
MCQ probing benchmark: preguntas de opción múltiple que sondean si el modelo realmente distingue entre herramientas similares.
QA probing benchmark: preguntas abiertas que exigen describir el propósito y los parámetros de una tool concreta.

El enfoque está pensado para la recuperación paramétrica, una técnica que codifica cada herramienta como un token virtual añadido al vocabulario del LLM y la entrena en dos fases: memorización primero, luego ajuste supervisado de recuperación. Es una alternativa a los encoders de embeddings compactos, que pueden no capturar bien la semántica especializada de catálogos heterogéneos.

Los autores aplican ToolSense sobre ToolBench —aproximadamente 47.000 herramientas— y evalúan cinco configuraciones distintas de entrenamiento paramétrico. Los resultados, aunque el abstract no los desgrana completamente, apuntan a una disociación clara: configuraciones que funcionan bien en el benchmark estándar no necesariamente demuestran comprensión real cuando se les somete a consultas ambiguas o a preguntas de sondeo.

Por qué importa esto más allá del paper

Para quien trabaja con Claude Code, servidores MCP o cualquier arquitectura de agente sobre catálogos amplios de tools, este tipo de investigación tiene consecuencias directas. La promesa del retrieval paramétrico es atractiva: en lugar de depender de un encoder externo para encontrar la tool adecuada, el propio LLM lleva ese conocimiento incorporado. Pero si ese conocimiento es frágil —funciona con queries bien formadas pero falla con lenguaje natural impreciso—, el sistema se rompe exactamente cuando más lo necesitas.

El problema se agrava con catálogos dinámicos. En entornos donde las herramientas se añaden, modifican o versionan con frecuencia —algo habitual en integraciones MCP activas—, la fase de memorización puede quedar desactualizada sin que los benchmarks convencionales lo detecten.

ToolSense, al automatizar la generación de pruebas de diagnóstico a partir del propio catálogo, ofrece algo que los benchmarks estáticos no pueden: un espejo ajustado a las tools reales que usa tu sistema, no a las de un dataset de referencia genérico. Que sea open-source y funcione con cualquier catálogo como entrada lo hace especialmente práctico para equipos que mantienen integraciones propias.

A quién le resulta útil

El paper está dirigido a investigadores de sistemas de agentes y recuperación de herramientas, pero tiene lectura práctica para:

Equipos que mantienen servidores MCP con decenas o cientos de tools y quieren saber si el modelo realmente entiende cada una.
Ingenieros que evalúan estrategias de retrieval antes de elegir entre embeddings clásicos y aproximaciones paramétricas.
Quienes construyen plugins o subagentes sobre Claude Code que delegan selección de herramientas al propio modelo.

El framework está disponible a través del enlace al paper; los repositorios asociados suelen aparecer en la sección de código del arxiv o en el PDF completo.

---

Opinión EP: Que alguien haya formalizado la diferencia entre "recuperar bien" y "entender de verdad" es útil y necesario. Los benchmarks estáticos llevan tiempo siendo un proxy demasiado cómodo; ToolSense no resuelve el problema de fondo, pero al menos lo hace visible y medible.

ToolSense: cómo auditar lo que un LLM sabe sobre sus herramientas

Qué propone ToolSense

Por qué importa esto más allá del paper

A quién le resulta útil

Fuentes

Seguir leyendo

AINTMA: seis agentes de IA para automatizar la gestión de pruebas de software

Los watermarks de LLMs degradan la calidad de textos médicos, según un estudio

SysAdmin, el test que mide si un modelo busca más poder