Cuánto es realmente 10 tokens por segundo

Cuando un proveedor anuncia que su modelo genera «30 tokens por segundo», la cifra suena bien en un benchmark pero dice poco sobre la experiencia real de uso. ¿Es eso rápido? ¿Lento? ¿Comparable a leer un texto en pantalla o más bien como ver cómo se construye frase a frase mientras esperas? Mike Veerman ha construido una respuesta práctica a esa pregunta: una pequeña aplicación web que simula distintas velocidades de salida para que puedas comprobarlo con tus propios ojos.

La herramienta, enlazada el 20 de mayo en el blog de Simon Willison y difundida desde Hacker News, no hace nada sofisticado: reproduce texto a la velocidad que elijas, entre 5 y 800 tokens por segundo, y te deja ver la diferencia. El código fuente está disponible en GitHub y cabe en un único archivo HTML.

Por qué los tokens por segundo son una métrica resbaladiza

El problema con los «tokens por segundo» (TPS) como medida de marketing es que mezcla dos experiencias de usuario muy distintas según el contexto. Para una tarea interactiva —un chat, una sesión de pair programming con Claude Code, una consulta puntual— la velocidad de streaming afecta directamente a si la experiencia se siente fluida o irritante. Para procesamiento en batch —resumir cientos de documentos, generar embeddings, ejecutar pipelines nocturnos— la latencia percibida importa mucho menos que el throughput total.

Además, los tokens no equivalen a palabras de forma uniforme. En español, muchas palabras comunes se tokenizan en dos o tres piezas, lo que significa que 30 tokens por segundo pueden producir bastantes menos palabras legibles de lo que uno esperaría comparando con un texto en inglés a la misma tasa. La herramienta de Veerman no entra en ese matiz —simula salida genérica—, pero ya el simple hecho de ver la velocidad en tiempo real pone el número en perspectiva.

Qué muestra la simulación

Probando la herramienta se confirma algo que quienes trabajamos con LLMs de forma habitual intuimos pero rara vez articulamos bien:

Por debajo de 15-20 TPS, la lectura se vuelve incómoda. Se nota el ritmo entrecortado, similar al texto que aparece letra a letra en muchos chatbots de los primeros años de LLMs en producción.
Entre 30 y 60 TPS, la experiencia se percibe fluida para la mayoría de los usuarios. El texto aparece a una velocidad similar a la lectura rápida natural.
Por encima de 100 TPS, el streaming visible pierde utilidad práctica: el texto completa bloques tan rápido que la sensación es casi la de una respuesta instantánea.

Eso sitúa en perspectiva los números que circulan en benchmarks públicos. Modelos locales modestos que entregan 15-20 TPS en hardware de consumo pueden ofrecer una experiencia perfectamente usable para un chat. Y ciertos servicios de inferencia en la nube que presumen de 200+ TPS están optimizando más allá de lo que el usuario medio puede apreciar en una interfaz de streaming convencional.

Para quién es útil esto

La herramienta tiene valor en al menos tres escenarios concretos:

1. Equipos evaluando proveedores de inferencia: antes de firmar un contrato o elegir un tier de API, simular la velocidad anunciada ayuda a decidir si el salto de precio entre planes está justificado para el caso de uso concreto.
2. Desarrolladores diseñando interfaces: saber que 25 TPS se percibe fluido permite tomar decisiones de UX —mostrar o no el streaming, usar un indicador de carga alternativo— con criterio en lugar de intuición.
3. Personas que evalúan hardware para inferencia local: al comparar una GPU con otra basándose en benchmarks TPS, tener una referencia perceptual concreta es más útil que comparar números abstractos.

No es una herramienta que resuelva nada complejo, pero ese es precisamente su mérito. A veces la utilidad está en hacer visible algo que estaba implícito en una cifra.

---

Desde EP, nos parece un recordatorio sano de que los benchmarks necesitan traducción perceptual antes de convertirse en criterio de decisión. Una herramienta de un solo archivo HTML que hace exactamente eso merece más visibilidad de la que suele tener.

Cuánto es realmente 10 tokens por segundo

Por qué los tokens por segundo son una métrica resbaladiza

Qué muestra la simulación

Para quién es útil esto

Fuentes

Seguir leyendo

Un case study de seis meses: plataforma de AI trainers y job board

PyPI bloquea archivos nuevos en versiones de más de 14 días

sqlite-utils 4.1 permite insertar filas con código Python