Thinking Machines apuesta por IA que escucha y habla a la vez
La startup Thinking Machines trabaja en un modelo que procesa la entrada del usuario y genera respuesta al mismo tiempo, rompiendo el esquema turn-based que comparten todos los LLMs actuales.
Todos los modelos de lenguaje que existen hoy, sin excepción, funcionan igual: tú escribes o hablas, el modelo escucha; el modelo responde, tú escuchas. Es un protocolo por turnos, el mismo que usamos para mandarnos mensajes de texto. Thinking Machines quiere romper ese esquema construyendo un modelo capaz de procesar la entrada del usuario y generar la respuesta al mismo tiempo, de modo que la interacción se parezca más a una llamada telefónica que a un chat.
Según TechCrunch, la startup está desarrollando esta capacidad de procesamiento y generación simultáneos como su apuesta diferenciadora frente a los grandes laboratorios. El objetivo no es solo reducir la latencia percibida, sino cambiar cualitativamente la naturaleza de la conversación con una IA.
Qué hay detrás del modelo turn-based y por qué cuesta tanto salir de él
El esquema turno a turno no es una elección de diseño arbitraria: es una consecuencia directa de cómo funcionan los transformers autorregresivos. El modelo genera tokens de forma secuencial, uno tras otro, condicionando cada token a todos los anteriores. Para que el modelo pueda "escuchar" mientras habla necesitaría integrar nueva información de entrada en un proceso de generación que ya está en marcha, algo que la arquitectura estándar no contempla.
Las aproximaciones que se han explorado hasta ahora suelen pasar por sistemas en cascada: un módulo de detección de interrupciones que corta la generación cuando detecta actividad de voz del usuario, y luego reencola la respuesta. El resultado es funcional pero artificial: la IA sigue sin procesar realmente lo que dices mientras te habla, solo sabe cuándo parar.
Lo que Thinking Machines describe apunta a algo más ambicioso: integración real de los flujos de entrada y salida, no un sistema de interrupción reactivo. Si lo consiguen en producción, la diferencia en naturalidad sería sustancial.
Por qué importa más allá del hardware de voz
Podría parecer que esto solo afecta a asistentes de voz o dispositivos tipo earbuds con IA. No es así. El modelo turn-based impone una fricción cognitiva que está muy normalizada pero que limita los casos de uso de forma real:
- Entrevistas y role-play: hoy el interlocutor IA no puede reaccionar a matices que introduces mientras responde.
- Formación y coaching: un instructor humano ajusta su explicación en tiempo real según las reacciones del alumno; un LLM actual no puede.
- Atención al cliente por voz: las pausas artificiales y la incapacidad de gestionar interrupciones naturales generan experiencias que el usuario percibe como robóticas.
- Reuniones asistidas por IA: si el modelo participa activamente en una conversación grupal, el turno fijo se vuelve un cuello de botella inmediato.
Dónde está Thinking Machines ahora
La compañía no ha publicado benchmarks ni ha anunciado una fecha de acceso público. Por el momento, lo que existe es la descripción del problema que quieren resolver y la dirección técnica que están tomando. No es poco: la mayoría de startups en este espacio compiten en parámetros ya establecidos (velocidad de generación, coste por token, tamaño de contexto). Thinking Machines está apostando por cambiar el tipo de problema.
El riesgo es evidente: construir una arquitectura que se desvíe del paradigma dominante es caro, lento y sin garantías de que el mercado valore el resultado lo suficiente como para compensar la inversión. Los laboratorios grandes tienen recursos para intentarlo en paralelo sin apostar toda la empresa en ello.
---
Es una dirección técnica interesante y el problema que identifican es real. Que consigan resolverlo en producción, a escala y con una latencia que no anule la ventaja, es otra conversación. Lo seguiremos de cerca.
Fuentes
Seguir leyendo
Un astrofísico usa Codex para simular agujeros negros
Chi-kwan Chan usa Codex de OpenAI para construir simulaciones de agujeros negros y poner a prueba la relatividad general de Einstein. Así trabaja en la práctica.
Google muestra en vídeo qué puede hacer Gemini Omni y Gemini 3.5
Google publicó nueve vídeos demostrativos de Gemini Omni y Gemini 3.5 tras su presentación en Google I/O 2026. Repasamos qué muestran y qué implica para el sector.
Google vibe-codea un quiz de I/O 2026 con AI Studio
Google usó su propio AI Studio para construir en modo vibe coding un quiz interactivo sobre los anuncios de I/O 2026. Un ejercicio de dogfooding que dice más de lo que parece.