Un Transformer aprende a planificar talleres sin reentrenarse

Un modelo Transformer entrenado con aprendizaje por refuerzo profundo (DRL) sobre instancias de referencia de entre 4×4 y 10×10 máquinas es capaz de generar planificaciones válidas para talleres de hasta 100×100 sin necesidad de reentrenarse. La desviación media respecto a la cota inferior teórica se sitúa entre el 12,89 % y el 15,12 %, según el artículo publicado el 15 de junio de 2026 en arXiv, arXiv:2606.13682.

El dato no es trivial: el problema de planificación de taller abierto (OSSP, del inglés Open Shop Scheduling Problem) es un clásico NP-difícil que aparece en cadenas de fabricación, laboratorios diagnósticos y servicios de TI. A medida que crece el número de trabajos y máquinas, los métodos exactos se vuelven computacionalmente inviables y las heurísticas tradicionales requieren ajuste manual considerable.

Qué propone el estudio

Los autores construyen una política de planificación basada en arquitectura encoder-decoder con atención multi-cabeza, el mismo bloque fundamental que sustenta los grandes modelos de lenguaje. Sin embargo, el dominio aquí es radicalmente distinto: la entrada es únicamente la matriz de tiempos de procesamiento de cada trabajo en cada máquina; la salida, una secuencia de asignaciones que minimiza el makespan (tiempo total de finalización).

El entrenamiento se realiza exclusivamente sobre las instancias Taillard —un conjunto de referencia estándar en investigación de scheduling— en tamaños 4×4, 5×5, 7×7 y 10×10. Con esos datos, el modelo aprende a generar planificaciones factibles cuyos makespans quedan, en general, entre un 15 % y un 30 % por encima de los mejores valores conocidos para esos tamaños.

Por qué importa la generalización sin reentrenamiento

La parte más relevante del trabajo no es el rendimiento en los tamaños de entrenamiento, sino lo que ocurre al aplicar la política a instancias aleatorias de 40×40, 60×60, 80×80 y 100×100, dimensiones que el modelo nunca ha visto. Aquí se compara contra cuatro reglas de despacho clásicas:

SPT (Shortest Processing Time): asigna primero la tarea más corta.
LPT (Longest Processing Time): la más larga primero.
MWKR (Most Work Remaining): prioriza la mayor carga pendiente.
EST (Earliest Start Time): la que puede empezar antes.

El Transformer supera a SPT, LPT y MWKR en los escenarios grandes y se mantiene competitivo frente a EST, la heurística más sofisticada del grupo, con una brecha modesta. La diferencia práctica es que las reglas de despacho son deterministas y no aprenden; un cambio en la distribución de los tiempos de proceso obliga a reajustarlas o a elegir otra regla. El modelo neuronal, al haber aprendido una representación latente de la estructura del problema, transfiere parte de ese conocimiento a configuraciones distintas.

Para quién es útil

Este enfoque interesa principalmente a tres perfiles:

1. Ingenieros de operaciones en plantas de fabricación o centros logísticos que buscan una alternativa a heurísticas manuales sin el coste de un solver exacto.
2. Investigadores en optimización combinatoria que exploran hasta dónde llega la transferencia de políticas aprendidas con DRL entre escalas de problema.
3. Equipos de MLOps que integran modelos de inferencia en pipelines de planificación y valoran la estabilidad de un solo modelo frente a la necesidad de mantener múltiples heurísticas.

El artículo es honesto respecto a las limitaciones: la desviación del 15-30 % sobre los mejores valores conocidos en instancias de entrenamiento no compite con solvers exactos o metaheurísticas bien ajustadas en escalas pequeñas. La ventaja aparece cuando la escala crece y el tiempo de cómputo disponible es limitado.

Contexto más amplio

Este trabajo se enmarca en una línea de investigación activa que lleva varios años explorando si los Transformers, originalmente diseñados para secuencias de texto, pueden aprender políticas de búsqueda combinatoria. Trabajos anteriores sobre TSP (Travelling Salesman Problem) o VRP (Vehicle Routing Problem) han mostrado resultados similares: generalización razonable, rendimiento inferior a los mejores solvers especializados, pero velocidad de inferencia notablemente mayor una vez entrenado el modelo.

El OSSP añade una complejidad específica: a diferencia del job shop scheduling, el orden de las operaciones en cada máquina no está predefinido, lo que amplía el espacio de búsqueda y hace más difícil definir heurísticas de referencia sólidas.

---

EP: Un 12-15 % de desviación sobre la cota inferior en instancias de 100×100 sin reentrenamiento es un resultado sólido, no espectacular. Lo que realmente valdría la pena ver en una siguiente iteración es una comparación directa contra metaheurísticas de referencia —como algoritmos genéticos o búsqueda tabú— en las mismas instancias grandes, con tiempo de cómputo controlado. Mientras no exista esa comparación, el papel del modelo sigue siendo el de una alternativa rápida, no la mejor opción posible.

Un Transformer aprende a planificar talleres sin reentrenarse

Qué propone el estudio

Por qué importa la generalización sin reentrenamiento

Para quién es útil

Contexto más amplio

Fuentes

Seguir leyendo

Un wiki mantenido por agentes LLM para no perder el conocimiento del equipo

Kernel Forge: agentes LLM que optimizan kernels CUDA en modelos PyTorch

Alignment faking sin consecuencias: 15 modelos a examen