Una IA gestionó un café en Estocolmo y encargó 120 huevos sin tener cocina

Andon Labs lleva meses poniendo a prueba algo concreto: dejar que una IA gestione un negocio físico de principio a fin. Primero fue una tienda de retail en San Francisco; ahora, según recoge Simon Willison en su blog, han abierto un café en Estocolmo bajo las mismas condiciones. La IA al mando, llamada Mona, tomó decisiones de inventario desde el primer día. Una de ellas fue pedir 120 huevos para un establecimiento que no tiene fogones.

Lo que siguió forma ya parte del folklore interno del local: el personal tuvo que explicarle a Mona que no podía cocinar los huevos, ella sugirió usar el horno de alta velocidad, y cuando le advirtieron que explotarían, buscó otra solución. Para el problema de los tomates frescos que se estropeaban demasiado rápido, Mona decidió pedir 22,5 kg de tomates en conserva. Destinados, eso sí, a los sándwiches frescos. Los baristas acabaron creando una "Galería de la Vergüenza": una estantería visible para los clientes donde expusieron los artículos más inverosímiles que Mona había encargado, entre ellos 6.000 servilletas, 3.000 guantes de nitrilo, 9 litros de leche de coco y bolsas de basura de tamaño industrial.

Qué mide este experimento realmente

Los fallos de Mona son llamativos, pero el experimento no está diseñado para ser una demostración de competencia impecable. Está diseñado para observar dónde y cómo falla un agente autónomo cuando opera en el mundo físico sin supervisión constante. Y en ese sentido, los resultados son informativos.

El problema de los huevos no es un error de cálculo numérico: es un error de comprensión del contexto físico del negocio. Mona no tenía representación interna de qué equipamiento existía en el local. Pedía según categorías de producto sin modelar las restricciones del entorno. Es exactamente el tipo de brecha que los sistemas de agentes actuales tienen dificultades para cerrar: la distancia entre lo que saben sobre un dominio en abstracto y lo que saben sobre una instancia concreta y sus limitaciones.

La solución de los tomates en conserva para sándwiches frescos ilustra otro patrón conocido: el agente optimiza para resolver el síntoma inmediato (el desperdicio de tomate) sin evaluar si la solución encaja con las restricciones del producto final. Resuelve el subproblema, ignora el sistema.

Para quién es útil esta información

Estos experimentos interesan a perfiles muy distintos. Los equipos que trabajan en agentes con acceso a herramientas externas —compras, APIs de inventario, sistemas ERP— encuentran aquí casos reales de fallo que no aparecen en benchmarks. Ver cómo un agente gestiona restricciones físicas implícitas, o cómo prioriza entre objetivos en conflicto, es más instructivo que cualquier evaluación sintética.

Para quienes están considerando desplegar agentes en operaciones con consecuencias tangibles —logística, aprovisionamiento, atención presencial— el experimento de Andon Labs es un recordatorio de que la supervisión humana no es un coste operativo prescindible: es parte del diseño del sistema, al menos por ahora.

También interesa a quienes siguen el debate sobre autonomía de agentes desde el ángulo de la confianza: ¿cuánto contexto situacional necesita un agente antes de que sus decisiones sean fiables? La Galería de la Vergüenza del café de Estocolmo sugiere que ese umbral está bastante más lejos de lo que los demos pulidos suelen indicar.

Lo que queda fuera del titular

Willison señala en su entrada que estos experimentos pierden parte de su valor cuando no se publican con suficiente detalle técnico sobre cómo está construido el sistema. Qué modelo subyace, qué herramientas tiene disponibles, cómo se estructuran las instrucciones, qué nivel de supervisión existe realmente. Sin esos datos, lo que queda es una anécdota entretenida, no un caso de estudio replicable.

Es una crítica justa. El relato del café en Estocolmo es memorable precisamente porque los fallos son concretos y verificables. Pero para que sirva como referencia al ecosistema, haría falta más transparencia sobre la arquitectura detrás de Mona.

Dicho esto, el simple hecho de que un negocio físico esté funcionando —con sus tropiezos— bajo gestión mayoritariamente autónoma es un dato que merece atención. No como promesa de lo que viene, sino como medición honesta de dónde estamos.

Una IA gestionó un café en Estocolmo y encargó 120 huevos sin tener cocina

Qué mide este experimento realmente

Para quién es útil esta información

Lo que queda fuera del titular

Fuentes

Seguir leyendo

xAI y Anthropic: un acuerdo que levanta más preguntas que respuestas

Wispr Flow apuesta por el Hinglish para crecer en India

El glosario de IA que TechCrunch publica cuando ya era necesario