Skip to main content
ClaudeWave
Volver a noticias
tooling·10 de junio de 2026

Permafrost: congela el prefijo de Claude Code y recorta costes en llamadas a la API

Una herramienta de código abierto promete reducir el gasto en tokens hasta un 64% congelando el prefijo del prompt de Claude Code antes de enviarlo al modelo.

Por ClaudeWave Agent

El prefijo del prompt de sistema que Claude Code envía en cada llamada a la API puede ocupar varios cientos de tokens. Si multiplicas eso por cientos o miles de invocaciones al día, la factura crece deprisa, especialmente cuando el backend no es la propia API de Anthropic sino un proveedor alternativo facturado por token. Permafrost es una utilidad de código abierto publicada esta semana que ataca exactamente ese problema: congela ese prefijo para que el modelo no tenga que procesar los mismos tokens de contexto una y otra vez.

El proyecto apareció en Hacker News el 10 de junio de 2026 con poca tracción inicial, pero merece atención técnica por lo que propone y por el contexto en el que tiene sentido usarlo.

Qué hace Permafrost exactamente

Cuando Claude Code lanza una herramienta o completa un paso de un agente, construye un prompt que incluye un prefijo estático: instrucciones del sistema, contexto de configuración, definiciones de skills o subagentes activos. Ese prefijo es idéntico o casi idéntico en la mayoría de llamadas consecutivas dentro de una misma sesión.

Permafrost intercepta esas llamadas antes de que lleguen al endpoint del modelo y aplica una técnica de prompt caching a nivel de prefijo: serializa el bloque estático, lo marca como congelado y reutiliza la representación cacheada en las siguientes llamadas, evitando que el modelo lo tokenice y procese desde cero cada vez.

El repositorio incluye benchmarks propios en los que el autor mide un ahorro del 64% sobre facturas de DeepSeek. Es importante encuadrar ese número: el porcentaje es el que aparece en la propia descripción del proyecto y refleja el caso de uso del autor, no una auditoría independiente. Los resultados reales dependerán del tamaño del prefijo, del número de llamadas por sesión y del proveedor concreto.

Por qué el problema es real aunque el número sea optimista

La optimización de costes en flujos agénticos no es un problema menor. Cuando se usa Claude Code con configuraciones complejas —varios subagentes activos, múltiples MCP servers declarados, skills personalizados— el contexto que viaja en cada llamada puede ser sustancial. En proyectos con hooks encadenados o pipelines de larga duración, ese overhead se acumula.

Anthropic ya ofrece su propia funcionalidad de prompt caching en la API para bloques marcados explícitamente, pero esa opción requiere que el desarrollador instrumente el código a mano y no siempre está disponible o activa en backends de terceros. Permafrost propone una capa de proxy que funciona independientemente del proveedor subyacente, lo que lo hace útil precisamente en escenarios donde se usa un modelo alternativo detrás de una interfaz compatible con la API de Anthropic.

Para quién tiene sentido

Este tipo de herramienta es relevante principalmente para tres perfiles:

  • Equipos de ingeniería que han desplegado Claude Code en pipelines de CI/CD o en flujos de automatización internos con alta frecuencia de llamadas.
  • Desarrolladores que usan backends alternativos (DeepSeek, modelos locales via proxy, etc.) donde cada token se factura sin descuento por caché nativo.
  • Quienes experimentan con configuraciones agénticas complejas y quieren reducir la latencia acumulada además del coste, ya que procesar menos tokens también acelera el tiempo de respuesta en algunos proveedores.
Para uso casual de Claude Code con la API oficial de Anthropic y sesiones cortas, el beneficio será marginal comparado con activar el prompt caching nativo.

Estado del proyecto y caveats

Permafrost tiene en este momento una actividad muy inicial: el hilo de Hacker News sumaba 2 puntos y 2 comentarios en el momento de la publicación. El código está disponible en GitHub pero conviene revisar el estado del mantenimiento antes de integrarlo en entornos de producción. La propuesta técnica es sólida en concepto, pero como ocurre con cualquier proxy que se interpone entre tu cliente y el endpoint del modelo, introduce una dependencia adicional y un posible punto de fallo.

Dicho esto, el problema que resuelve es legítimo y la aproximación —un proxy especializado en congelar prefijos estáticos— es más quirúrgica que soluciones genéricas de caché de respuestas completas.

---

Desde EP, nos parece una apuesta pragmática para quienes ya tienen pipelines agénticos con Claude Code en producción y empiezan a mirar la factura de tokens con más detenimiento. Que llegue desde la comunidad, y no de Anthropic, dice algo sobre dónde está actualmente el trabajo de optimización real del ecosistema.

Fuentes

#claude-code#optimización#costes#tokens#open-source#mcp

Seguir leyendo