Un modelo de visión-lenguaje autónomo opera en órbita por primera vez

El 16 de abril de 2026, un satélite en órbita baja ejecutó por primera vez inferencia multimodal completa —clasificación de escena, descripción textual y diálogo en lenguaje natural— sin enviar los datos a tierra para su procesamiento. El sistema se llama NAVI-Orbital, y el paper que documenta la demostración apareció en arXiv el 18 de junio.

El resultado en rendimiento es concreto: 88,16% de precisión sobre el benchmark AID de 7.960 imágenes en validación en tierra, seguido de capturas reales de imágenes terrestres nunca vistas antes, procesadas directamente a bordo. No es un experimento en laboratorio con hardware especializado: es un vuelo operativo en LEO.

El problema que intenta resolver

La observación de la Tierra genera más datos de los que el enlace de bajada puede transmitir. Un satélite de resolución media puede capturar cientos de gigabytes por órbita; el ancho de banda disponible para la descarga es una fracción de eso. El resultado habitual es que las imágenes se priorizan a ciegas o se pierden antes de que alguien las analice. La inteligencia accionable llega tarde, o no llega.

La solución convencional es preprocesar a bordo con modelos ligeros entrenados para tareas muy concretas: detectar nubes, estimar cobertura, aplicar filtros geométricos. Útil, pero rígido. Cambiar la tarea implica reentrenar o resubir software, algo costoso en tiempo y operaciones de misión.

NAVI-Orbital apuesta por un enfoque diferente: un modelo de visión-lenguaje generalista —concretamente Gemma 3— ejecutado completamente en el satélite, que puede clasificar escenas, describir relaciones entre elementos de la imagen y responder preguntas del operador en lenguaje natural. La retarea del satélite se hace mediante prompts en inglés común en lugar de secuencias de comandos propietarias.

Cómo está construido

La orquestación recae en un grafo de estado implementado con LangGraph, que coordina agentes especializados para detección y diálogo. La arquitectura es deliberadamente modular: el agente de detección corre inferencia sobre las capturas, y el agente de diálogo gestiona el intercambio con los operadores en tierra cuando se establece contacto.

El uso de Gemma 3 como modelo base es relevante por dos razones prácticas. Primera: es un modelo de código abierto con variantes suficientemente compactas para ejecutarse en hardware embebido con restricciones de energía y memoria propias del entorno espacial. Segunda: al ser un modelo zero-shot, no requiere reentrenamiento para cada nueva categoría de escena; basta con ajustar el prompt.

Los autores denominan explícitamente esta capacidad como «zero-shot», lo que en este contexto significa que el sistema puede responder a clases de objetos o situaciones que no formaban parte del conjunto de entrenamiento original, usando solo la descripción en lenguaje natural proporcionada por el operador.

Por qué importa y para quién

La demostración en órbita importa sobre todo a tres perfiles. Los operadores de misión que trabajan con constelaciones pequeñas o cubesat, donde el coste de cada subida de software justifica un sistema más flexible desde el principio. Los equipos de respuesta a emergencias —inundaciones, incendios, desplazamientos de población— que necesitan análisis rápido sin esperar el ciclo completo de descarga y procesamiento en tierra. Y los equipos de investigación que trabajan en edge AI aplicado a entornos con recursos limitados, para quienes esta demostración aporta un punto de referencia real, no sintético.

Para el ecosistema más amplio de modelos de lenguaje aplicados, el dato interesante es que la arquitectura de agentes con grafo de estado —un patrón que también usa Claude Code con sus subagentes y hooks— resulta lo suficientemente ligera para operar en órbita. La distancia entre lo que se despliega en un servidor cloud y lo que puede ejecutarse en un satélite LEO es, aparentemente, menor de lo que se asumía.

El paper no detalla las especificaciones exactas del hardware a bordo ni los tiempos de latencia de inferencia en órbita, lo que es una limitación para quien quiera replicar o comparar resultados. Dicho esto, el hecho de que una demostración así haya ocurrido ya —y esté documentada con benchmarks cuantificables— le da al trabajo una solidez que los experimentos puramente simulados no tienen.

Desde EP, consideramos que este tipo de trabajo merece más atención de la que habitualmente reciben los papers de aplicaciones espaciales: los problemas de ancho de banda, latencia y autonomía que resuelve son los mismos que encontramos en cualquier entorno edge con restricciones severas, solo que con consecuencias más visibles cuando algo falla.

Un modelo de visión-lenguaje autónomo opera en órbita por primera vez

El problema que intenta resolver

Cómo está construido

Por qué importa y para quién

Fuentes

Seguir leyendo

OpenAI publica diez avances en matemáticas y computación teórica

RL frente a SFT: qué cambia dentro del modelo al razonar

Un wiki mantenido por agentes LLM para no perder el conocimiento del equipo