KV Sharing, MHC y atención comprimida: las apuestas arquitectónicas que definen los LLM en 2026
Un análisis técnico de Sebastian Raschka recorre tres tendencias arquitectónicas que están cambiando cómo los LLM gestionan la memoria y la atención en inferencia.
El coste de inferencia sigue siendo el cuello de botella más real del despliegue de modelos grandes. No es un problema de benchmark: es dinero contante y sonante en facturas de cómputo. Por eso los avances en cómo los LLM gestionan la memoria de atención —especialmente la caché de clave-valor (KV cache)— tienen tanto peso en la investigación aplicada de este año.
Sebastian Raschka, investigador y divulgador con credibilidad consolidada en la comunidad ML, publicó esta semana en su Substack un análisis detallado de tres líneas de desarrollo arquitectónico que están ganando tracción: KV Sharing, Multi-Head Compression (MHC) y Compressed Attention. El hilo en Hacker News no acumuló comentarios, pero el artículo en sí circuló con fuerza entre ingenieros de ML, lo que dice bastante sobre el perfil del contenido: denso, técnico y sin concesiones a la divulgación fácil.
Qué propone cada enfoque
KV Sharing parte de una observación empírica: en muchas capas de un transformer, las matrices de clave (K) y valor (V) que genera cada cabeza de atención son redundantes entre sí. Si varias cabezas comparten representaciones KV en lugar de computarlas de forma independiente, se reduce el tamaño de la caché sin una degradación apreciable en calidad. La idea no es nueva —variantes como Multi-Query Attention (MQA) o Grouped-Query Attention (GQA) llevan años en producción—, pero los trabajos recientes empujan la compartición a niveles más agresivos y entre capas, no solo entre cabezas.
Multi-Head Compression (MHC) aborda el problema desde otro ángulo: en lugar de eliminar cabezas o fusionarlas, proyecta los vectores K y V a un espacio de menor dimensión antes de almacenarlos en caché. Durante la generación, se recuperan y se expanden de vuelta. El tradeoff es explícito: algo de coste en proyección a cambio de una huella de memoria significativamente menor. Raschka señala que algunos experimentos recientes muestran que la compresión puede ser bastante agresiva —factores de 4x a 8x— sin que la perplejidad se dispare en tareas estándar.
Compressed Attention es quizás la más ambiciosa de las tres. En lugar de operar sobre la secuencia completa de tokens pasados, aplica mecanismos de compresión sobre el contexto antes de construir la caché. Algunas implementaciones recientes combinan esto con atención deslizante o selección de tokens ancla, de modo que el modelo mantiene una representación comprimida del contexto lejano sin descartarlo por completo. Para ventanas de contexto largas —el millón de tokens de Claude Opus 4.7 es un ejemplo extremo— este tipo de técnicas podría ser la diferencia entre viabilidad económica e inviabilidad.
Por qué importa más allá del paper
Estas tres líneas convergen en un problema práctico: cuanto mayor es la ventana de contexto, más crece la KV cache en memoria, y más caro resulta mantener sesiones largas en producción. Los equipos que despliegan modelos como servicio lo saben bien: el coste no escala linealmente con el número de tokens, sino peor, porque la caché ocupa memoria GPU que compite con el batch size.
Para quienes trabajan con Claude Code y servidores MCP en pipelines de larga duración —procesamiento de documentos extensos, análisis de repositorios enteros, agentes con historial persistente—, la eficiencia en inferencia tiene consecuencias directas en latencia y coste por llamada. No es investigación de laboratorio desconectada: los avances en compresión de KV cache son los que eventualmente permiten que esas ventanas de un millón de tokens sean económicamente sostenibles a escala.
El análisis de Raschka también es útil como mapa de navegación. La literatura sobre eficiencia en atención es abundante y a veces contradictoria en sus afirmaciones. Tener una síntesis que distinga qué funciona en benchmarks controlados de qué ha llegado a modelos en producción tiene valor real para ingenieros que necesitan tomar decisiones de arquitectura o de selección de modelos.
Para quién es relevante
El artículo está escrito para un lector con base técnica en transformers. No es material de onboarding, pero tampoco requiere haber leído los papers originales. Es especialmente útil para:
- Ingenieros ML evaluando opciones de arquitectura para modelos propios o fine-tuning.
- Equipos de infraestructura que optimizan el coste de inferencia en producción.
- Desarrolladores de integraciones Claude que necesitan entender las restricciones reales de contexto largo.
Fuentes
Seguir leyendo
LLMs generalistas superan a la IA clínica especializada en benchmarks médicos
Un estudio publicado en Nature Medicine muestra que los modelos de lenguaje de propósito general obtienen mejores resultados que sistemas clínicos especializados en evaluaciones médicas estandarizadas.
ToolSense: cómo auditar lo que un LLM sabe sobre sus herramientas
Un nuevo framework de diagnóstico publicado en arXiv revela que los modelos que recuperan herramientas parametricamente pueden obtener buenas métricas sin entender realmente qué hace cada tool.
Business World Model: cuando los agentes AI aprenden a razonar sobre empresas
Un paper de arXiv propone una arquitectura formal para que los agentes AI no solo ejecuten tareas, sino que modelen el estado y la dinámica de un negocio completo antes de actuar.