KV Sharing, MHC y atención comprimida: las apuestas arquitectónicas que definen los LLM en 2026

El coste de inferencia sigue siendo el cuello de botella más real del despliegue de modelos grandes. No es un problema de benchmark: es dinero contante y sonante en facturas de cómputo. Por eso los avances en cómo los LLM gestionan la memoria de atención —especialmente la caché de clave-valor (KV cache)— tienen tanto peso en la investigación aplicada de este año.

Sebastian Raschka, investigador y divulgador con credibilidad consolidada en la comunidad ML, publicó esta semana en su Substack un análisis detallado de tres líneas de desarrollo arquitectónico que están ganando tracción: KV Sharing, Multi-Head Compression (MHC) y Compressed Attention. El hilo en Hacker News no acumuló comentarios, pero el artículo en sí circuló con fuerza entre ingenieros de ML, lo que dice bastante sobre el perfil del contenido: denso, técnico y sin concesiones a la divulgación fácil.

Qué propone cada enfoque

KV Sharing parte de una observación empírica: en muchas capas de un transformer, las matrices de clave (K) y valor (V) que genera cada cabeza de atención son redundantes entre sí. Si varias cabezas comparten representaciones KV en lugar de computarlas de forma independiente, se reduce el tamaño de la caché sin una degradación apreciable en calidad. La idea no es nueva —variantes como Multi-Query Attention (MQA) o Grouped-Query Attention (GQA) llevan años en producción—, pero los trabajos recientes empujan la compartición a niveles más agresivos y entre capas, no solo entre cabezas.

Multi-Head Compression (MHC) aborda el problema desde otro ángulo: en lugar de eliminar cabezas o fusionarlas, proyecta los vectores K y V a un espacio de menor dimensión antes de almacenarlos en caché. Durante la generación, se recuperan y se expanden de vuelta. El tradeoff es explícito: algo de coste en proyección a cambio de una huella de memoria significativamente menor. Raschka señala que algunos experimentos recientes muestran que la compresión puede ser bastante agresiva —factores de 4x a 8x— sin que la perplejidad se dispare en tareas estándar.

Compressed Attention es quizás la más ambiciosa de las tres. En lugar de operar sobre la secuencia completa de tokens pasados, aplica mecanismos de compresión sobre el contexto antes de construir la caché. Algunas implementaciones recientes combinan esto con atención deslizante o selección de tokens ancla, de modo que el modelo mantiene una representación comprimida del contexto lejano sin descartarlo por completo. Para ventanas de contexto largas —el millón de tokens de Claude Opus 4.7 es un ejemplo extremo— este tipo de técnicas podría ser la diferencia entre viabilidad económica e inviabilidad.

Por qué importa más allá del paper

Estas tres líneas convergen en un problema práctico: cuanto mayor es la ventana de contexto, más crece la KV cache en memoria, y más caro resulta mantener sesiones largas en producción. Los equipos que despliegan modelos como servicio lo saben bien: el coste no escala linealmente con el número de tokens, sino peor, porque la caché ocupa memoria GPU que compite con el batch size.

Para quienes trabajan con Claude Code y servidores MCP en pipelines de larga duración —procesamiento de documentos extensos, análisis de repositorios enteros, agentes con historial persistente—, la eficiencia en inferencia tiene consecuencias directas en latencia y coste por llamada. No es investigación de laboratorio desconectada: los avances en compresión de KV cache son los que eventualmente permiten que esas ventanas de un millón de tokens sean económicamente sostenibles a escala.

El análisis de Raschka también es útil como mapa de navegación. La literatura sobre eficiencia en atención es abundante y a veces contradictoria en sus afirmaciones. Tener una síntesis que distinga qué funciona en benchmarks controlados de qué ha llegado a modelos en producción tiene valor real para ingenieros que necesitan tomar decisiones de arquitectura o de selección de modelos.

Para quién es relevante

El artículo está escrito para un lector con base técnica en transformers. No es material de onboarding, pero tampoco requiere haber leído los papers originales. Es especialmente útil para:

Ingenieros ML evaluando opciones de arquitectura para modelos propios o fine-tuning.
Equipos de infraestructura que optimizan el coste de inferencia en producción.
Desarrolladores de integraciones Claude que necesitan entender las restricciones reales de contexto largo.

Opinión EP: El hecho de que estas técnicas avancen en paralelo en varios laboratorios sugiere que la presión económica sobre la inferencia es real y compartida. Raschka hace un buen trabajo articulando el estado del arte sin overselling; vale la pena tenerlo como referencia de cabecera.

KV Sharing, MHC y atención comprimida: las apuestas arquitectónicas que definen los LLM en 2026

Qué propone cada enfoque

Por qué importa más allá del paper

Para quién es relevante

Fuentes

Seguir leyendo

AINTMA: seis agentes de IA para automatizar la gestión de pruebas de software

Los watermarks de LLMs degradan la calidad de textos médicos, según un estudio

SysAdmin, el test que mide si un modelo busca más poder