ZAYA1-8B: razonamiento competitivo con menos de 1B parámetros activos

El pasado 8 de mayo, el equipo de Zyphra publicó en arXiv el informe técnico de ZAYA1-8B, un modelo de razonamiento construido sobre una arquitectura Mixture-of-Experts (MoE) que mantiene solo 700M parámetros activos de un total de 8B. El dato que llama la atención no es el tamaño —hay modelos mucho mayores— sino lo que logra con él: igualar o superar a DeepSeek-R1-0528 en varios benchmarks exigentes de matemáticas y código, y mantenerse competitivo frente a modelos open-weight considerablemente más grandes.

Eso pone sobre la mesa una pregunta que cada vez tiene más peso en la comunidad: ¿cuándo deja de tener sentido escalar parámetros totales si los activos por inferencia pueden ser una fracción de ese total?

Qué hace diferente a ZAYA1-8B

La arquitectura base es MoE++, propia de Zyphra, pero lo más destacable es la decisión de diseño en el entrenamiento: el razonamiento no se añadió como una capa posterior mediante RLHF tardío, sino que los datos de razonamiento se incorporaron desde el preentrenamiento. Para evitar que el modelo reproduzca cadenas de pensamiento excesivamente largas, Zyphra aplicó un esquema de answer-preserving trimming que recorta las trazas de razonamiento manteniendo la respuesta correcta intacta.

El post-entrenamiento sigue una cascada de cuatro etapas de aprendizaje por refuerzo (RL):

1. Reasoning warmup sobre matemáticas y puzzles.
2. RLVE-Gym: un currículo de 400 tareas.
3. Math y code RL con trazas de cómputo en tiempo de inferencia y entornos sintéticos de código construidos a partir de referencias de programación competitiva.
4. Behavioral RL orientado a chat e instrucción siguiendo.

Cada etapa está pensada para que el modelo no solo aprenda a resolver problemas, sino a estructurar el proceso de resolución de una manera que sea útil en inferencia.

Markovian RSA: una apuesta en tiempo de inferencia

Quizá la contribución metodológica más novedosa del paper es Markovian RSA (Recursive Sequential Aggregation), un método de test-time compute que agrega de forma recursiva múltiples trazas de razonamiento paralelas. Lo que lo distingue de enfoques similares es la restricción markoviana: entre rondas de agregación, el modelo solo lleva consigo una cola de razonamiento de longitud acotada, en lugar de acumular todo el historial. Esto reduce el coste de contexto sin sacrificar la coherencia del razonamiento encadenado.

Para quienes trabajan con despliegues donde el coste por token en inferencia importa —que es casi cualquier producción a escala— este tipo de técnica tiene relevancia práctica inmediata.

Por qué importa esto más allá del benchmark

El entrenamiento completo —preentrenamiento, midtraining y SFT— se realizó íntegramente sobre infraestructura AMD: cómputo, red y software. Zyphra no menciona GPUs NVIDIA en ningún punto del informe. Esto no es un detalle menor: si los resultados se replican de forma independiente, añade evidencia a la tesis de que el ecosistema AMD está madurando como alternativa real para entrenar modelos de esta escala, algo que hasta hace poco era más promesa que realidad.

En cuanto al público al que le resulta más útil este trabajo: equipos que necesitan capacidades de razonamiento serias en entornos con restricciones de memoria o latencia, investigadores que estudian métodos de RL para razonamiento, y cualquiera que esté evaluando alternativas open-weight a modelos propietarios para tareas de matemáticas o código.

ZAYA1-8B no es el modelo más grande ni el más visible del momento, pero su informe técnico es de los más densos en decisiones de diseño justificadas que hemos leído en lo que va de 2026. Merece una lectura pausada antes de descartarlo por el nombre.

ZAYA1-8B: razonamiento competitivo con menos de 1B parámetros activos

Qué hace diferente a ZAYA1-8B

Markovian RSA: una apuesta en tiempo de inferencia

Por qué importa esto más allá del benchmark

Fuentes

Seguir leyendo

Diseño conversacional para museos: del monólogo al diálogo con IA

¿Matará la IA al artículo científico tal como lo conocemos?

Anthropic explica por qué entrena a Claude con razonamiento moral, no solo con reglas