Passmark: tests de regresión para comportamiento de IA con Playwright

Cualquier equipo que haya puesto un modelo de lenguaje en producción sabe que el problema no es conseguir que funcione el primer día: es saber cuándo dejó de funcionar bien. Un cambio de prompt, una actualización del modelo subyacente o una modificación aparentemente inocua en el contexto pueden degradar la salida sin levantar ninguna alarma en los sistemas de monitorización tradicionales. No hay un stack trace; hay respuestas que simplemente son peores.

Passmark es una librería open-source que intenta atacar exactamente ese problema. Está construida sobre Playwright —el conocido framework de automatización de navegadores de Microsoft— y aparece en Hacker News como una propuesta para hacer regression testing sobre el comportamiento de sistemas con IA integrada.

Qué hace exactamente

La idea central de Passmark es tratar las salidas de un modelo de IA como si fueran elementos de interfaz: observables, comparables entre versiones y capaces de fallar un test si se desvían de lo esperado. Usando Playwright como capa de ejecución, Passmark permite definir escenarios en los que una acción del usuario desencadena una respuesta generada por IA, y luego evaluar si esa respuesta cumple criterios concretos.

El enfoque es pragmático: en lugar de intentar evaluar semántica con métricas difusas, propone escribir tests que se puedan lanzar en un pipeline de CI/CD igual que cualquier suite de tests end-to-end. Si el comportamiento cambia lo suficiente como para no superar los criterios definidos, el test falla. Simple.

Por qué tiene sentido ahora

El testing de sistemas con IA ha sido durante años el primo pobre del QA. Existen herramientas de evaluación de modelos —evals, benchmarks, frameworks como LangSmith o RAGAS— pero en general apuntan a ciencia de datos o a equipos de ML, no a ingenieros de software que simplemente necesitan saber si su feature sigue funcionando después de un deploy.

Playwright, por otro lado, es una herramienta que ya vive en el workflow de muchos equipos de frontend y fullstack. Construir sobre ella reduce la barrera de entrada: no hay que aprender un ecosistema nuevo ni convencer al equipo de que adopte otra plataforma de evaluación especializada.

Esto conecta con un problema que hemos visto crecer a medida que más productos integran llamadas a LLMs en flujos críticos: ¿cómo garantizas que la experiencia del usuario no se degrada silenciosamente? Los tests unitarios no llegan hasta ahí; los tests de integración tampoco capturan la variabilidad de una respuesta generativa.

Para quién es útil

Passmark parece especialmente relevante para tres perfiles:

Equipos de producto que han integrado IA en flujos de usuario concretos —un asistente de soporte, un generador de contenido, un copiloto dentro de una app— y necesitan detectar regresiones antes de que lleguen a producción.
Agencias y consultoras que entregan proyectos con IA integrada y quieren tener cobertura de tests demostrables ante el cliente.
Desarrolladores en solitario que mantienen herramientas con IA y no tienen presupuesto para plataformas de evaluación empresariales.

No está pensado para investigadores que evalúan modelos base, ni para equipos de ML que trabajan con métricas de rendimiento estadístico. El target es el ingeniero de software que ya usa Playwright y quiere extender su suite de tests hacia las partes de la aplicación que involucran generación.

El estado del proyecto

Con 3 puntos y 1 comentario en Hacker News en el momento de publicación, Passmark está en una fase muy temprana de visibilidad comunitaria. La propuesta técnica es coherente, pero todavía queda por ver cómo resuelve los detalles más espinosos: la no-determinismo inherente de los LLMs, el coste de lanzar llamadas reales a modelos en cada ciclo de CI, y la definición de criterios de evaluación que no sean ni demasiado rígidos ni tan laxos que no detecten nada.

Dicho esto, la dirección es la correcta. La industria necesita herramientas de testing que hablen el mismo idioma que los equipos de ingeniería, no solo el de los equipos de datos. Que alguien esté construyendo eso encima de una base tan consolidada como Playwright es, cuando menos, una apuesta razonable.

Qué hace exactamente

Por qué tiene sentido ahora

Para quién es útil

El estado del proyecto

Sources