Google muestra en vídeo qué puede hacer Gemini Omni y Gemini 3.5
Google publicó nueve vídeos demostrativos de Gemini Omni y Gemini 3.5 tras su presentación en Google I/O 2026. Repasamos qué muestran y qué implica para el sector.
Google I/O 2026 dejó dos nombres sobre la mesa en lo que respecta a modelos: Gemini Omni y Gemini 3.5. Más allá de los anuncios en escenario, el Google AI Blog publicó el pasado viernes 29 de mayo una colección de nueve vídeos demostrativos pensada para mostrar estas capacidades en situaciones concretas, sin presentaciones de diapositivas de por medio.
El formato es relevante: en lugar de benchmarks o tablas comparativas, Google apuesta por demostrar casos de uso reales grabados en vídeo. Es una decisión comunicativa deliberada que lleva tiempo siendo habitual en OpenAI y que Google adopta aquí con claridad.
Qué se ve en las demos
Los nueve vídeos cubren un abanico amplio de situaciones. Sin transcripción oficial detallada disponible más allá del post, los clips muestran capacidades multimodales: comprensión de vídeo en tiempo real, razonamiento sobre imágenes, interacción por voz con respuestas naturales y generación de código con contexto visual. Gemini Omni aparece como el modelo orientado a la integración de múltiples modalidades de entrada y salida de forma simultánea, mientras que Gemini 3.5 se presenta como una actualización enfocada en razonamiento y precisión en tareas complejas.
El énfasis en la fluidez de las transiciones entre modalidades —pasar de voz a texto a imagen dentro de una misma conversación— es el hilo conductor de varias de las demos. Es el tipo de integración que sobre el papel llevan meses prometiendo varios laboratorios, pero que en la práctica presenta fricciones notables.
Por qué importa y para quién
Para equipos que trabajan con integraciones de modelos de lenguaje, el lanzamiento de Gemini Omni es relevante por una razón concreta: si la capacidad multimodal simultánea funciona tal como se muestra, reduce la necesidad de encadenar modelos especializados distintos para voz, imagen y texto. Eso simplifica arquitecturas y puede bajar costes operativos en pipelines complejos.
Para desarrolladores que ya trabajan con el ecosistema Google —Vertex AI, Google AI Studio, APIs de Gemini—, estas demos son la señal de hacia dónde va el stack. No es información neutral: Google está marcando qué tipo de casos de uso quiere que construyas sobre su infraestructura.
Para el ecosistema más amplio, incluido el de Claude, el movimiento tiene lectura directa: la competencia en capacidades multimodales se intensifica. Anthropic tiene sus propias apuestas en ese terreno, pero Google dispone de ventajas estructurales en integración con hardware propio (TPUs) y en distribución a través de sus productos de consumo masivo.
Lo que las demos no responden
Los vídeos demostrativos tienen un límite evidente: muestran lo que el equipo de producto eligió mostrar, en las condiciones que eligieron. No hay información pública todavía sobre latencias reales en producción, precios de acceso a Gemini Omni, ni sobre cuándo estarán disponibles estas capacidades fuera de demos controladas.
Tampoco queda claro en qué medida Gemini 3.5 supone una mejora sustancial respecto a versiones anteriores en tareas de razonamiento matemático o código, que son las métricas donde los laboratorios compiten con más detalle técnico. Para eso habrá que esperar evaluaciones independientes.
Perspectiva EP
Nueve vídeos bien producidos son una buena herramienta de comunicación, pero no sustituyen a documentación técnica ni a acceso real para desarrolladores. Cuando eso llegue, tendremos una imagen más clara de si Gemini Omni cambia algo en la práctica o si queda, por ahora, en promesa presentable.
Fuentes
Seguir leyendo
Un astrofísico usa Codex para simular agujeros negros
Chi-kwan Chan usa Codex de OpenAI para construir simulaciones de agujeros negros y poner a prueba la relatividad general de Einstein. Así trabaja en la práctica.
Google vibe-codea un quiz de I/O 2026 con AI Studio
Google usó su propio AI Studio para construir en modo vibe coding un quiz interactivo sobre los anuncios de I/O 2026. Un ejercicio de dogfooding que dice más de lo que parece.
Cómo los atacantes explotan la 'personalidad' de los chatbots de IA
Las técnicas de jailbreak han evolucionado desde simples trucos de texto hasta ataques que manipulan la identidad y el rol asignado a los modelos. Esto es lo que está pasando.