DeepSlide: generar presentaciones con IA no es solo hacer diapositivas bonitas
Un nuevo sistema multiagente propone separar la calidad visual de las diapositivas del proceso real de presentación: ritmo, narrativa y preparación del ponente.
La mayoría de las herramientas de generación de diapositivas con IA compiten por producir el deck más atractivo visualmente. Lo que casi ninguna mide es si el ponente podrá defender ese material delante de una audiencia real en el tiempo acordado. Esta semana, un equipo de investigadores publicó en arXiv DeepSlide: From Artifacts to Presentation Delivery, un trabajo que cuestiona precisamente ese sesgo.
La distinción que propone el paper es sencilla pero tiene implicaciones prácticas relevantes: hay una diferencia entre el artefacto (las diapositivas como objeto estático) y la entrega (el proceso de presentarlas, con ritmo, narrativa y preparación del ponente). Optimizar solo lo primero deja sin resolver la mitad del problema.
Qué es DeepSlide y cómo funciona
DeepSlide es un sistema multiagente con intervención humana (human-in-the-loop) que cubre el ciclo completo de preparación de una presentación. Según el paper, el sistema integra cuatro componentes principales:
- Un planificador de cadena lógica controlable con presupuestos de tiempo por nodo, lo que permite asignar cuántos minutos merece cada sección de la narrativa antes de generar una sola diapositiva.
- Un recuperador basado en árbol de contenidos (content-tree retriever) para fundamentar el contenido en evidencia concreta, en lugar de generar texto plausible sin base.
- Renderizado secuencial al estilo Markov con herencia de estilo entre diapositivas, para mantener coherencia visual sin que cada slide sea un diseño aislado.
- Ejecución en sandbox con reparación mínima, para garantizar que el resultado sea siempre renderizable sin intervención manual extensa.
El benchmark de doble marcador
Este es posiblemente el aporte más interesante del trabajo desde el punto de vista metodológico. Los autores introducen un benchmark de dual scoreboard que separa explícitamente dos dimensiones:
1. Calidad del artefacto estático: diseño, estructura visual, legibilidad.
2. Excelencia en la entrega dinámica: fluidez narrativa, precisión del ritmo, coherencia entre script y diapositiva.
Las métricas actuales del campo mezclan ambas o se centran casi exclusivamente en la primera. Según los resultados reportados en el paper, DeepSlide iguala a los sistemas de referencia en calidad de artefacto, pero obtiene ganancias consistentemente mayores en las métricas de entrega, incluyendo flujo narrativo y precisión de pacing, en evaluaciones sobre 20 dominios y distintos perfiles de audiencia.
Para quién es útil esto
El trabajo tiene aplicación inmediata en al menos tres contextos:
- Investigadores y académicos que preparan comunicaciones científicas con tiempo de exposición limitado (conferencias, defensas de tesis, pósteres con pitch). La planificación temporal explícita de la narrativa es especialmente útil aquí.
- Equipos que usan agentes IA para producción de contenido, donde este tipo de arquitectura multiagente con sandbox y reparación mínima puede servir de referencia de diseño, independientemente del dominio.
- Desarrolladores de herramientas de productividad con IA que quieran integrar métricas de entrega en sus pipelines de evaluación, algo que el benchmark propuesto hace más accesible.
Opinión EP
La separación conceptual entre artefacto y entrega que propone DeepSlide es más útil que la arquitectura en sí: da nombre a un problema que cualquiera que haya usado estas herramientas ha sentido pero no sabido articular. Si el benchmark de doble marcador es adoptado por otros equipos, podría mejorar bastante cómo se evalúa esta categoría de herramientas en los próximos meses.
Fuentes
Seguir leyendo
LLMs generalistas superan a la IA clínica especializada en benchmarks médicos
Un estudio publicado en Nature Medicine muestra que los modelos de lenguaje de propósito general obtienen mejores resultados que sistemas clínicos especializados en evaluaciones médicas estandarizadas.
ToolSense: cómo auditar lo que un LLM sabe sobre sus herramientas
Un nuevo framework de diagnóstico publicado en arXiv revela que los modelos que recuperan herramientas parametricamente pueden obtener buenas métricas sin entender realmente qué hace cada tool.
Business World Model: cuando los agentes AI aprenden a razonar sobre empresas
Un paper de arXiv propone una arquitectura formal para que los agentes AI no solo ejecuten tareas, sino que modelen el estado y la dinámica de un negocio completo antes de actuar.