DivInit: búsqueda agéntica más eficaz sin reentrenar modelos

Cuando se escala un agente de búsqueda ejecutando varias trayectorias en paralelo, la intuición dice que más intentos deberían producir respuestas más ricas. En la práctica, sin embargo, los modelos tienden a formular consultas iniciales muy parecidas entre sí, lo que hace que cada hilo recupere documentos solapados y que las trayectorias diverjan muy poco desde el primer paso. El resultado: rendimientos decrecientes a medida que se añaden rollouts, sin ganancia real de información.

Ese es exactamente el problema que aborda DivInit (arXiv:2606.17209), publicado esta semana por investigadores de Carnegie Mellon University.

El problema: redundancia en la primera consulta

El escalado en tiempo de inferencia para búsqueda agéntica tiene dos ejes clásicos: profundidad (más turnos y tokens por trayectoria) y anchura (más trayectorias paralelas). El trabajo se centra en el eje de anchura y diagnostica con precisión su talón de Aquiles.

Cuando un modelo genera k consultas de forma independiente para k rollouts, la varianza natural del muestreo es insuficiente para garantizar que cada hilo explore un ángulo distinto de la pregunta. Las consultas resultantes son semánticamente similares, los fragmentos recuperados se superponen y las trayectorias acaban siendo redundantes. Todo el cómputo adicional sirve de poco.

La solución: diversidad deliberada al inicio

DivInit resuelve esto con una intervención quirúrgica y sin coste de entrenamiento. En lugar de muestrear k consultas de forma independiente, el método:

1. Genera n candidatos de consulta en una única llamada al modelo (n > k).
2. Selecciona k semillas maximizando la diversidad entre ellas.
3. Lanza cada semilla como trayectoria paralela independiente.

El efecto es que cada hilo parte de un ángulo distinto del espacio de búsqueda, recupera evidencia complementaria y llega a razonamientos menos correlacionados. La agregación final tiene así más información no redundante con la que trabajar.

Resultados: cinco a siete puntos en multi-hop QA

Los autores evalúan DivInit sobre cinco modelos de código abierto y ocho benchmarks. Los resultados son consistentes: ganancias medias de cinco a siete puntos en preguntas de múltiples saltos (multi-hop QA) respecto al muestreo paralelo estándar, con presupuesto de cómputo equivalente. No es una mejora marginal para un caso de uso específico; se replica en todos los modelos y la mayoría de benchmarks.

Lo relevante desde el punto de vista práctico es el coste de adopción: ninguno. DivInit no requiere ajuste fino, no altera la arquitectura del agente y puede aplicarse como capa sobre cualquier framework agéntico existente. El código está disponible en github.com/cxcscmu/diverse-query-initialization.

Para quién es útil esto

El hallazgo importa en varios niveles:

Equipos que construyen agentes de búsqueda sobre Claude Code con subagentes especializados en recuperación de información: DivInit ofrece una forma concreta de mejorar la calidad de respuesta sin aumentar el presupuesto de tokens.
Desarrolladores de pipelines RAG multi-hop: la técnica ataca directamente el punto débil de estos sistemas cuando se busca escalado por votación o best-of-k.
Investigadores de test-time compute: el paper añade evidencia a la discusión sobre cuándo el escalado en anchura vale la pena y cuándo se desperdicia cómputo por falta de diversidad.

El trabajo también tiene implicaciones para cómo se diseñan los hooks y subagentes en entornos como Claude Code: si varios subagentes de búsqueda se lanzan en paralelo para una misma tarea, la coordinación de sus consultas iniciales puede marcar la diferencia entre obtener perspectivas complementarias u obtener el mismo resultado cinco veces.

Contexto más amplio

La idea de diversificar la exploración no es nueva en búsqueda o planificación, pero aplicarla de forma tan directa al primer token de cada trayectoria agéntica, y demostrarlo empíricamente a esta escala, es lo que da valor al paper. La comunidad lleva meses discutiendo los límites del escalado en anchura; DivInit ofrece una respuesta operativa, no solo teórica.

---

Desde ElephantPink, nos parece un resultado sólido precisamente porque es simple de implementar y generalizable. Si estás ejecutando búsquedas agénticas con varios rollouts, vale la pena revisar el repositorio antes de invertir en más cómputo.

DivInit: búsqueda agéntica más eficaz sin reentrenar modelos

El problema: redundancia en la primera consulta

La solución: diversidad deliberada al inicio

Resultados: cinco a siete puntos en multi-hop QA

Para quién es útil esto

Contexto más amplio

Fuentes

Seguir leyendo

OpenAI publica diez avances en matemáticas y computación teórica

RL frente a SFT: qué cambia dentro del modelo al razonar

Un wiki mantenido por agentes LLM para no perder el conocimiento del equipo