Subquadratic afirma haber resuelto el cuello de botella matemático de los LLMs
La startup de Miami salió del modo stealth con una afirmación mayor: haber resuelto un problema matemático que frena a los LLMs desde hace casi una década. Ahora empieza a aportar pruebas.
El pasado mes de mayo, la startup Subquadratic, con sede en Miami, salió del modo stealth con una afirmación que levantó mucho polvo: habían resuelto un problema matemático que ha limitado el rendimiento de los grandes modelos de lenguaje durante casi una década. Los detalles iniciales eran escasos, y la recepción en la comunidad investigadora fue, en el mejor de los casos, escéptica. Ahora, según MIT Technology Review, la empresa ha empezado a compartir evidencias concretas que respaldan la afirmación.
El problema que dicen haber resuelto
El cuello de botella en cuestión es la complejidad cuadrática del mecanismo de atención que subyace a prácticamente todos los transformers modernos. Dicho sin rodeos: cuando un modelo procesa una secuencia de texto, el coste computacional crece de forma cuadrática con la longitud de esa secuencia. Si la secuencia se dobla, el coste se cuadruplica. Esto tiene consecuencias directas en ventanas de contexto, velocidad de inferencia y coste de entrenamiento.
No es un problema nuevo. Desde 2017, cuando se publicó el paper original Attention Is All You Need, la comunidad ha buscado aproximaciones que reduzcan esa complejidad: Linformer, Performer, FlashAttention, atención lineal en sus distintas variantes... Todas ofrecen mejoras parciales o implican compromisos en calidad. Subquadratic afirma haber encontrado una solución matemáticamente sólida, no una aproximación.
Por qué el escepticismo inicial era razonable
Anunciar que se ha "resuelto" un problema de este calibre sin publicación en peer review ni detalles técnicos públicos es una señal de alarma legítima. La historia de la IA está llena de afirmaciones grandiosas que se evaporan al escrutinio. En este caso concreto, la empresa comunicó primero y detalló después, lo cual no ayudó a la credibilidad inicial.
Sin embargo, que ahora estén compartiendo resultados verificables cambia el escenario. El artículo de MIT Tech Review apunta a que Subquadratic está mostrando benchmarks y, presumiblemente, detalles de implementación suficientes para que investigadores externos puedan empezar a evaluar la solidez del enfoque. Ese es el paso que separa una afirmación de marketing de una contribución real.
Qué implicaría si se confirma
Si la solución es matemáticamente robusta y generalizable, las implicaciones son considerables, aunque conviene no adelantar celebraciones:
- Ventanas de contexto más largas a menor coste: modelos como Claude Opus 4.8, que ya ofrece contexto opcional de 1M de tokens, podrían beneficiarse de reducciones de coste de inferencia significativas en los rangos altos de contexto.
- Entrenamiento más eficiente: el coste cuadrático también golpea durante el entrenamiento. Reducirlo abriría la puerta a entrenar con secuencias más largas sin escalar el presupuesto compute de forma proporcional.
- Hardware más modesto: si la complejidad baja, la barrera de entrada para desplegar modelos grandes en infraestructura propia se reduce.
Quién debería seguir este caso de cerca
Principalmente, equipos de investigación de arquitecturas y cualquier organización que opere modelos propios a escala y donde el coste de inferencia sea una partida relevante. Para la mayoría de equipos que trabajan con APIs, el impacto sería indirecto y llegaría, si llega, con un cierto retardo.
Para quienes construyen sobre el ecosistema Claude —integraciones con MCP servers, pipelines con Claude Code, agentes que manejan contextos largos— el interés es más bien prospectivo: si este tipo de avances se trasladan a los modelos base, el comportamiento en tareas de contexto extendido podría mejorar sin cambios en la capa de integración.
---
Desde EP, la postura es de espera activa: la afirmación merece atención precisamente porque empieza a estar acompañada de evidencia, pero el estándar en investigación de arquitecturas es la replicación independiente. Hasta que eso ocurra, "cuello de botella resuelto" sigue siendo una hipótesis con datos prometedores, no un hecho establecido.
Fuentes
Seguir leyendo
AgenticRei propone gobernar agentes IA con políticas deónticas en tiempo real
Un paper de arXiv plantea que XACML, Rego y Cedar son insuficientes para los agentes autónomos modernos y propone AgenticRei como marco de gobernanza deóntica en tiempo de ejecución.
CaVe-VLM-CoT: un framework que obliga a los VLMs a citar sus fuentes
Un nuevo paper en arXiv propone un pipeline de cinco etapas que enruta los fallos de verificación de vuelta al retriever, midiendo por primera vez citación paso a paso en modelos visión-lenguaje.
Un modelo de visión-lenguaje autónomo opera en órbita por primera vez
El 16 de abril de 2026, el sistema NAVI-Orbital ejecutó inferencia multimodal completamente a bordo de un satélite LEO, sin intervención humana en bucle.