Gemini Omni: el modelo todo-a-todo de Google que desafía a Claude en multimodalidad

El periodista Vjeran Pavic, de The Verge, empezó su prueba de Gemini Omni de la forma más concreta posible: intentando recrear un anuncio de Google en el que deepfakeaba el peluche de su hijo para que pareciera de vacaciones. El resultado, según su análisis publicado el 23 de mayo, fue lo suficientemente convincente como para merecer atención técnica seria. Eso resume bien el nivel al que ha llegado Gemini Omni: no es un modelo de laboratorio, es algo que ya puede hacer cosas visualmente perturbadoras en manos de cualquier usuario con acceso.

Google presenta este modelo como «anything-to-anything»: acepta texto, imagen, audio y vídeo como entrada, y puede generar cualquiera de esas modalidades como salida. No es la primera vez que se habla de multimodalidad completa, pero la ejecución práctica —y el hecho de que esté disponible para pruebas reales— lo distingue de anuncios anteriores que prometían más de lo que entregaban.

Qué puede hacer realmente Gemini Omni

Según la cobertura de The Verge, las capacidades más llamativas incluyen la generación de vídeo a partir de imágenes estáticas con coherencia de movimiento, la manipulación de elementos visuales dentro de un clip existente (de ahí el experimento del peluche), y la síntesis de audio sincronizado con contenido visual generado. Todo desde una interfaz unificada, sin necesidad de encadenar herramientas externas.

Lo relevante aquí no es solo la potencia técnica, sino la integración: un único modelo que gestiona el pipeline completo. En la práctica actual, quienes construyen flujos de trabajo multimodales —ya sea con Claude Code, con agentes o con servidores MCP— suelen encadenar varios modelos especializados. Gemini Omni plantea una arquitectura alternativa donde ese encadenamiento ocurre internamente.

Por qué importa para quienes trabajan con Claude

Desde la perspectiva del ecosistema Claude, este movimiento de Google tiene implicaciones concretas en al menos dos frentes.

Primero, en el terreno de los agentes y subagentes: Claude Code permite delegar tareas a subagentes especializados, y muchos equipos ya integran modelos de vídeo o imagen de terceros como nodos dentro de ese grafo de ejecución. Si Gemini Omni consolida esas capacidades en un único endpoint, algunos de esos nodos podrían simplificarse o eliminarse. Eso no hace a Claude menos útil en razonamiento, planificación o gestión de contexto largo —donde Claude Opus 4.7 sigue siendo una referencia seria con su ventana de 1M de tokens—, pero sí reordena qué modelo conviene usar en cada parte del pipeline.

Segundo, en el mercado de integraciones MCP: los servidores MCP que hoy exponen capacidades de generación de imagen o vídeo a Claude van a tener que competir con un modelo que hace todo eso de forma nativa. No es un escenario de extinción, pero sí de especialización forzada: los MCP servers que sobrevivan bien serán los que aporten algo que un modelo generalista no puede dar fácilmente, como acceso a datos propietarios, lógica de negocio específica o integraciones con sistemas legacy.

Para quién es útil ahora mismo

Gemini Omni es especialmente relevante para tres perfiles:

Creadores de contenido que necesitan producir vídeo a partir de material estático sin dominar herramientas especializadas de edición o compositing.
Equipos de producto que prototipen experiencias multimedia y quieran un modelo único en lugar de una cadena de APIs.
Investigadores de seguridad y política de IA que necesitan entender qué nivel de deepfake es accesible hoy para un usuario no técnico —la respuesta, según The Verge, es: bastante alto.

Lo que aún no está claro es el rendimiento en tareas de razonamiento complejo o seguimiento de instrucciones largas, que es donde Claude Opus 4.7 tiene ventaja documentada. Gemini Omni parece optimizado para flujos creativos y transformaciones de contenido, no necesariamente para agentes que gestionen contextos de trabajo complejos durante sesiones prolongadas.

---

Desde ElephantPink, la lectura es moderada: Gemini Omni es un avance técnico real en multimodalidad nativa, no un anuncio vacío. Pero la idea de que un solo modelo «hace todo» merece escrutinio en producción antes de replantear arquitecturas; la historia reciente de la IA está llena de capacidades que funcionan en demos y se complican en casos de uso reales.

Gemini Omni: el modelo todo-a-todo de Google que desafía a Claude en multimodalidad

Qué puede hacer realmente Gemini Omni

Por qué importa para quienes trabajan con Claude

Para quién es útil ahora mismo

Fuentes

Seguir leyendo

World Cup AI: qué modelo lidera el ranking de benchmarks de junio 2026

Google mezcla A2UI y MCP para unificar interfaces de agentes

Mistral AI anuncia una familia de modelos más amplia