Subquadratic afirma haber resuelto el cuello de botella matemático de los LLMs

El pasado mes de mayo, la startup Subquadratic, con sede en Miami, salió del modo stealth con una afirmación que levantó mucho polvo: habían resuelto un problema matemático que ha limitado el rendimiento de los grandes modelos de lenguaje durante casi una década. Los detalles iniciales eran escasos, y la recepción en la comunidad investigadora fue, en el mejor de los casos, escéptica. Ahora, según MIT Technology Review, la empresa ha empezado a compartir evidencias concretas que respaldan la afirmación.

El problema que dicen haber resuelto

El cuello de botella en cuestión es la complejidad cuadrática del mecanismo de atención que subyace a prácticamente todos los transformers modernos. Dicho sin rodeos: cuando un modelo procesa una secuencia de texto, el coste computacional crece de forma cuadrática con la longitud de esa secuencia. Si la secuencia se dobla, el coste se cuadruplica. Esto tiene consecuencias directas en ventanas de contexto, velocidad de inferencia y coste de entrenamiento.

No es un problema nuevo. Desde 2017, cuando se publicó el paper original Attention Is All You Need, la comunidad ha buscado aproximaciones que reduzcan esa complejidad: Linformer, Performer, FlashAttention, atención lineal en sus distintas variantes... Todas ofrecen mejoras parciales o implican compromisos en calidad. Subquadratic afirma haber encontrado una solución matemáticamente sólida, no una aproximación.

Por qué el escepticismo inicial era razonable

Anunciar que se ha "resuelto" un problema de este calibre sin publicación en peer review ni detalles técnicos públicos es una señal de alarma legítima. La historia de la IA está llena de afirmaciones grandiosas que se evaporan al escrutinio. En este caso concreto, la empresa comunicó primero y detalló después, lo cual no ayudó a la credibilidad inicial.

Sin embargo, que ahora estén compartiendo resultados verificables cambia el escenario. El artículo de MIT Tech Review apunta a que Subquadratic está mostrando benchmarks y, presumiblemente, detalles de implementación suficientes para que investigadores externos puedan empezar a evaluar la solidez del enfoque. Ese es el paso que separa una afirmación de marketing de una contribución real.

Qué implicaría si se confirma

Si la solución es matemáticamente robusta y generalizable, las implicaciones son considerables, aunque conviene no adelantar celebraciones:

Ventanas de contexto más largas a menor coste: modelos como Claude Opus 4.8, que ya ofrece contexto opcional de 1M de tokens, podrían beneficiarse de reducciones de coste de inferencia significativas en los rangos altos de contexto.
Entrenamiento más eficiente: el coste cuadrático también golpea durante el entrenamiento. Reducirlo abriría la puerta a entrenar con secuencias más largas sin escalar el presupuesto compute de forma proporcional.
Hardware más modesto: si la complejidad baja, la barrera de entrada para desplegar modelos grandes en infraestructura propia se reduce.

Dicho esto, entre una solución matemática y su adopción en producción hay un trecho largo: compatibilidad con kernels de CUDA, integración en frameworks existentes como PyTorch o JAX, y validación en modelos a escala real.

Quién debería seguir este caso de cerca

Principalmente, equipos de investigación de arquitecturas y cualquier organización que opere modelos propios a escala y donde el coste de inferencia sea una partida relevante. Para la mayoría de equipos que trabajan con APIs, el impacto sería indirecto y llegaría, si llega, con un cierto retardo.

Para quienes construyen sobre el ecosistema Claude —integraciones con MCP servers, pipelines con Claude Code, agentes que manejan contextos largos— el interés es más bien prospectivo: si este tipo de avances se trasladan a los modelos base, el comportamiento en tareas de contexto extendido podría mejorar sin cambios en la capa de integración.

---

Desde EP, la postura es de espera activa: la afirmación merece atención precisamente porque empieza a estar acompañada de evidencia, pero el estándar en investigación de arquitecturas es la replicación independiente. Hasta que eso ocurra, "cuello de botella resuelto" sigue siendo una hipótesis con datos prometedores, no un hecho establecido.

Subquadratic afirma haber resuelto el cuello de botella matemático de los LLMs

El problema que dicen haber resuelto

Por qué el escepticismo inicial era razonable

Qué implicaría si se confirma

Quién debería seguir este caso de cerca

Fuentes

Seguir leyendo

AgenticRei propone gobernar agentes IA con políticas deónticas en tiempo real

CaVe-VLM-CoT: un framework que obliga a los VLMs a citar sus fuentes

Un modelo de visión-lenguaje autónomo opera en órbita por primera vez