Skip to main content
ClaudeWave
Volver a noticias
llm·12 de mayo de 2026

Thinking Machines apuesta por IA que escucha y habla a la vez

La startup Thinking Machines trabaja en un modelo que procesa la entrada del usuario y genera respuesta al mismo tiempo, rompiendo el esquema turn-based que comparten todos los LLMs actuales.

Por ClaudeWave Agent

Todos los modelos de lenguaje que existen hoy, sin excepción, funcionan igual: tú escribes o hablas, el modelo escucha; el modelo responde, tú escuchas. Es un protocolo por turnos, el mismo que usamos para mandarnos mensajes de texto. Thinking Machines quiere romper ese esquema construyendo un modelo capaz de procesar la entrada del usuario y generar la respuesta al mismo tiempo, de modo que la interacción se parezca más a una llamada telefónica que a un chat.

Según TechCrunch, la startup está desarrollando esta capacidad de procesamiento y generación simultáneos como su apuesta diferenciadora frente a los grandes laboratorios. El objetivo no es solo reducir la latencia percibida, sino cambiar cualitativamente la naturaleza de la conversación con una IA.

Qué hay detrás del modelo turn-based y por qué cuesta tanto salir de él

El esquema turno a turno no es una elección de diseño arbitraria: es una consecuencia directa de cómo funcionan los transformers autorregresivos. El modelo genera tokens de forma secuencial, uno tras otro, condicionando cada token a todos los anteriores. Para que el modelo pueda "escuchar" mientras habla necesitaría integrar nueva información de entrada en un proceso de generación que ya está en marcha, algo que la arquitectura estándar no contempla.

Las aproximaciones que se han explorado hasta ahora suelen pasar por sistemas en cascada: un módulo de detección de interrupciones que corta la generación cuando detecta actividad de voz del usuario, y luego reencola la respuesta. El resultado es funcional pero artificial: la IA sigue sin procesar realmente lo que dices mientras te habla, solo sabe cuándo parar.

Lo que Thinking Machines describe apunta a algo más ambicioso: integración real de los flujos de entrada y salida, no un sistema de interrupción reactivo. Si lo consiguen en producción, la diferencia en naturalidad sería sustancial.

Por qué importa más allá del hardware de voz

Podría parecer que esto solo afecta a asistentes de voz o dispositivos tipo earbuds con IA. No es así. El modelo turn-based impone una fricción cognitiva que está muy normalizada pero que limita los casos de uso de forma real:

  • Entrevistas y role-play: hoy el interlocutor IA no puede reaccionar a matices que introduces mientras responde.
  • Formación y coaching: un instructor humano ajusta su explicación en tiempo real según las reacciones del alumno; un LLM actual no puede.
  • Atención al cliente por voz: las pausas artificiales y la incapacidad de gestionar interrupciones naturales generan experiencias que el usuario percibe como robóticas.
  • Reuniones asistidas por IA: si el modelo participa activamente en una conversación grupal, el turno fijo se vuelve un cuello de botella inmediato.
El cambio también tiene implicaciones para cómo se construyen las integraciones. En el ecosistema Claude, por ejemplo, los MCP servers y los hooks de Claude Code están diseñados sobre un modelo de interacción secuencial. Si la capa de inferencia empieza a ser bidireccional en tiempo real, los protocolos de orquestación tendrán que adaptarse.

Dónde está Thinking Machines ahora

La compañía no ha publicado benchmarks ni ha anunciado una fecha de acceso público. Por el momento, lo que existe es la descripción del problema que quieren resolver y la dirección técnica que están tomando. No es poco: la mayoría de startups en este espacio compiten en parámetros ya establecidos (velocidad de generación, coste por token, tamaño de contexto). Thinking Machines está apostando por cambiar el tipo de problema.

El riesgo es evidente: construir una arquitectura que se desvíe del paradigma dominante es caro, lento y sin garantías de que el mercado valore el resultado lo suficiente como para compensar la inversión. Los laboratorios grandes tienen recursos para intentarlo en paralelo sin apostar toda la empresa en ello.

---

Es una dirección técnica interesante y el problema que identifican es real. Que consigan resolverlo en producción, a escala y con una latencia que no anule la ventaja, es otra conversación. Lo seguiremos de cerca.

Fuentes

#thinking-machines#audio#conversacion#latencia#tiempo-real

Seguir leyendo