DivInit: búsqueda agéntica más eficaz sin reentrenar modelos
Un paper de arXiv propone DivInit, una técnica sin entrenamiento que mejora el escalado en anchura de agentes de búsqueda diversificando las consultas iniciales para evitar redundancia.
Cuando se escala un agente de búsqueda ejecutando varias trayectorias en paralelo, la intuición dice que más intentos deberían producir respuestas más ricas. En la práctica, sin embargo, los modelos tienden a formular consultas iniciales muy parecidas entre sí, lo que hace que cada hilo recupere documentos solapados y que las trayectorias diverjan muy poco desde el primer paso. El resultado: rendimientos decrecientes a medida que se añaden rollouts, sin ganancia real de información.
Ese es exactamente el problema que aborda DivInit (arXiv:2606.17209), publicado esta semana por investigadores de Carnegie Mellon University.
El problema: redundancia en la primera consulta
El escalado en tiempo de inferencia para búsqueda agéntica tiene dos ejes clásicos: profundidad (más turnos y tokens por trayectoria) y anchura (más trayectorias paralelas). El trabajo se centra en el eje de anchura y diagnostica con precisión su talón de Aquiles.
Cuando un modelo genera k consultas de forma independiente para k rollouts, la varianza natural del muestreo es insuficiente para garantizar que cada hilo explore un ángulo distinto de la pregunta. Las consultas resultantes son semánticamente similares, los fragmentos recuperados se superponen y las trayectorias acaban siendo redundantes. Todo el cómputo adicional sirve de poco.
La solución: diversidad deliberada al inicio
DivInit resuelve esto con una intervención quirúrgica y sin coste de entrenamiento. En lugar de muestrear k consultas de forma independiente, el método:
1. Genera n candidatos de consulta en una única llamada al modelo (n > k).
2. Selecciona k semillas maximizando la diversidad entre ellas.
3. Lanza cada semilla como trayectoria paralela independiente.
El efecto es que cada hilo parte de un ángulo distinto del espacio de búsqueda, recupera evidencia complementaria y llega a razonamientos menos correlacionados. La agregación final tiene así más información no redundante con la que trabajar.
Resultados: cinco a siete puntos en multi-hop QA
Los autores evalúan DivInit sobre cinco modelos de código abierto y ocho benchmarks. Los resultados son consistentes: ganancias medias de cinco a siete puntos en preguntas de múltiples saltos (multi-hop QA) respecto al muestreo paralelo estándar, con presupuesto de cómputo equivalente. No es una mejora marginal para un caso de uso específico; se replica en todos los modelos y la mayoría de benchmarks.
Lo relevante desde el punto de vista práctico es el coste de adopción: ninguno. DivInit no requiere ajuste fino, no altera la arquitectura del agente y puede aplicarse como capa sobre cualquier framework agéntico existente. El código está disponible en github.com/cxcscmu/diverse-query-initialization.
Para quién es útil esto
El hallazgo importa en varios niveles:
- Equipos que construyen agentes de búsqueda sobre Claude Code con subagentes especializados en recuperación de información: DivInit ofrece una forma concreta de mejorar la calidad de respuesta sin aumentar el presupuesto de tokens.
- Desarrolladores de pipelines RAG multi-hop: la técnica ataca directamente el punto débil de estos sistemas cuando se busca escalado por votación o best-of-k.
- Investigadores de test-time compute: el paper añade evidencia a la discusión sobre cuándo el escalado en anchura vale la pena y cuándo se desperdicia cómputo por falta de diversidad.
Contexto más amplio
La idea de diversificar la exploración no es nueva en búsqueda o planificación, pero aplicarla de forma tan directa al primer token de cada trayectoria agéntica, y demostrarlo empíricamente a esta escala, es lo que da valor al paper. La comunidad lleva meses discutiendo los límites del escalado en anchura; DivInit ofrece una respuesta operativa, no solo teórica.
---
Desde ElephantPink, nos parece un resultado sólido precisamente porque es simple de implementar y generalizable. Si estás ejecutando búsquedas agénticas con varios rollouts, vale la pena revisar el repositorio antes de invertir en más cómputo.
Fuentes
Seguir leyendo
UP-NRPA: planificación de diálogo con LLMs sin entrenamiento offline
Investigadores proponen un framework que adapta estrategias de diálogo en tiempo real usando perfiles de usuario, sin necesidad de modelos de RL entrenados offline.
Un Transformer aprende a planificar talleres sin reentrenarse
Investigadores publican en arXiv un modelo Transformer entrenado con DRL que resuelve el OSSP industrial con hasta un 12-15% de desviación sobre el óptimo teórico, sin reentrenarse para instancias grandes.
LLM-as-a-Judge: evaluar con modelos de lenguaje tiene más matices de lo que parece
El enfoque LLM-as-a-Judge gana terreno como alternativa a la evaluación humana, pero sus sesgos y limitaciones multimodales merecen atención antes de adoptarlo a ciegas.