SubQ propone atención sub-cuadrática para LLMs: ¿qué hay detrás?
SubQ es un proyecto que promete reducir la complejidad computacional de los modelos de lenguaje más allá del estándar cuadrático. Analizamos qué sabemos y qué no.
La atención cuadrática lleva años siendo el cuello de botella más conocido de los transformers: duplicar la longitud del contexto cuadruplica el coste computacional. Es un problema bien documentado que ha generado una industria entera de soluciones parciales —ventanas deslizantes, atención dispersa, arquitecturas lineales como Mamba— sin que ninguna haya desplazado al transformer estándar en aplicaciones de propósito general. Esta semana, SubQ ha aparecido en Hacker News con la promesa de hacer exactamente eso: atención sub-cuadrática para LLMs.
La tracción inicial en HN ha sido modesta —cuatro puntos y ningún comentario en el momento de la publicación—, lo que no descarta que sea una propuesta técnica sólida, pero sí invita a leer con calma antes de sacar conclusiones.
Qué dice SubQ
La web de SubQ presenta el proyecto como una arquitectura para modelos de lenguaje que reduce la complejidad de la atención por debajo del umbral cuadrático O(n²) que caracteriza a los transformers convencionales. El objetivo declarado es que modelos con contextos largos sean computacionalmente viables sin los compromisos de calidad que suelen acompañar a los métodos de aproximación.
En el momento de escribir esta pieza, la documentación pública es escasa: no hay paper enlazado, no hay benchmarks reproducibles ni repositorio público de código. La propuesta existe principalmente como landing page con descripción de alto nivel.
Por qué el problema es real y difícil
Que el problema que SubQ aborda sea legítimo no está en duda. La atención cuadrática es la razón por la que escalar el contexto resulta prohibitivo en términos de memoria y tiempo de cómputo. Anthropic ha optado por ventanas de contexto de hasta 1M de tokens en Claude Opus 4.7, pero mantener ese contexto activo tiene un coste de inferencia considerable que se traslada directamente al precio por token.
Las aproximaciones existentes —FlashAttention, atención lineal, arquitecturas de estado oculto como SSMs— han conseguido mejoras reales pero siempre con algún trade-off: pérdida de calidad en tareas que requieren atención global, mayor complejidad de implementación o restricciones sobre el tipo de dependencias que el modelo puede capturar.
Si SubQ consigue reducir genuinamente la complejidad sin esos compromisos, el impacto sería significativo. Pero esa es precisamente la parte que no se puede verificar todavía.
Para quién sería relevante
Las implicaciones prácticas de una atención sub-cuadrática real son distintas según el caso de uso:
- Equipos de infraestructura que gestionan despliegues de Claude Code con cargas de contexto largo notarían una reducción directa en costes de inferencia, especialmente en flujos con múltiples subagentes o sesiones de larga duración.
- Investigadores que trabajan en arquitecturas propias y buscan referentes técnicos actualizados para incorporar en sus experimentos.
- Empresas que despliegan modelos on-premise con restricciones de hardware, donde la eficiencia cuadrática pesa más que en entornos cloud elásticos.
Qué falta para evaluar la propuesta
Para que SubQ pueda considerarse más que una promesa, habría que ver al menos tres cosas: un preprint o paper técnico con la formulación matemática de la reducción de complejidad, benchmarks comparativos contra transformers estándar y variantes existentes (preferiblemente en tareas estándar como perplexity en conjuntos de evaluación conocidos), y código reproducible. Sin eso, cualquier afirmación sobre rendimiento o eficiencia queda en el aire.
Esto no es un juicio sobre las intenciones del equipo detrás de SubQ —puede que el paper esté en camino o que el lanzamiento público sea aún temprano—, sino una descripción honesta del estado actual de la información disponible.
Contexto más amplio
SubQ surge en un momento en que el interés por alternativas a la atención cuadrática ha vuelto a crecer, impulsado en parte por la carrera hacia contextos más largos y por el coste operativo que eso implica. Proyectos como RWKV, Mamba o GLA han demostrado que el espacio de arquitecturas alternativas tiene margen real de exploración. La pregunta siempre es la misma: ¿funciona igual de bien en la práctica que en teoría?
---
Desde EP, consideramos que vale la pena seguir SubQ si en las próximas semanas publica evidencia técnica verificable. Por ahora, es un nombre que apuntar en la lista de propuestas a revisar, no una solución lista para evaluar en producción.
Fuentes
Seguir leyendo
Diseño conversacional para museos: del monólogo al diálogo con IA
Un preprint propone un marco de diseño para integrar IA conversacional en entornos de patrimonio cultural, replanteando cómo los museos transmiten conocimiento.
¿Matará la IA al artículo científico tal como lo conocemos?
Un debate abierto en Marginal Revolution cuestiona si los LLMs están vaciando de sentido el formato del paper académico. Analizamos qué hay de fondo.
Anthropic explica por qué entrena a Claude con razonamiento moral, no solo con reglas
El equipo de alineamiento de Anthropic publica un artículo sobre cómo enseñan a Claude el porqué de sus valores, no solo qué hacer o qué evitar.