Google AI Edge Gallery: Corré LLMs Completos en Tu Celular Sin Internet

Hay una pregunta que aparece siempre que alguien propone una feature de IA en una reunión de producto: “¿Qué pasa cuando el usuario no tiene conexión?” Para la mayoría de las herramientas de IA, la respuesta honesta es: nada funciona. Google AI Edge Gallery está apostando a que esa respuesta está a punto de cambiar.

Qué es

Google AI Edge Gallery es una app open source — disponible en Android y en iOS — que te permite descargar y ejecutar modelos de lenguaje directamente en tu dispositivo. Sin llamadas a APIs. Sin backend en la nube. Sin datos que salgan de tu celular. Una vez que bajaste el modelo, podés activar el modo avión y la inferencia sigue funcionando exactamente igual.

La app se lanzó en Google I/O 2025 junto con el preview de Gemma 3n. En sus primeros dos meses alcanzó 500.000 descargas del APK — lo que dice bastante sobre el apetito que hay en la comunidad por IA on-device.

La actualización con Gemma 4

La novedad principal del último release es soporte completo para la familia de modelos Gemma 4. La propuesta es ejecutar razonamiento avanzado, lógica y capacidades creativas sin enviar ningún dato a un servidor. La familia viene en cuatro tamaños:

  • Gemma 4 1B — optimizado para celulares, inferencia rápida, menor precisión
  • Gemma 4 4B — el punto dulce para la mayoría de los Android modernos con 8GB+ de RAM
  • Gemma 4 12B — razonamiento más potente, necesita un dispositivo capaz
  • Gemma 4 27B — calidad near-frontier, requiere hardware de laptop

El update también trae Thinking Mode — una feature que te deja ver el proceso de razonamiento del modelo en tiempo real, por ahora exclusiva para los modelos de la familia Gemma 4.

Agent Skills: la parte interesante

Acá es donde las cosas se ponen genuinamente nuevas. Agent Skills es una de las primeras implementaciones de workflows agénticos autónomos de múltiples pasos que corren enteramente on-device. Potenciado por Gemma 4, te permite extender el LLM base con herramientas modulares: Wikipedia para fact-grounding, mapas interactivos, tarjetas de resumen visual, y más. Podés cargar skills de la comunidad desde una URL, o construir las tuyas propias.

Pensalo como function calling — pero ejecutándose completamente en tu hardware, sin dependencia de internet una vez que el modelo está descargado.

Gestión de modelos y realidad de hardware

La app está integrada con Hugging Face, lo que te permite explorar cientos de modelos y descargarlos directamente. También podés importar tus propios modelos si ya los tenés en el dispositivo.

El hardware importa. Los dispositivos con NPU dedicada — como Qualcomm Snapdragon 8 Gen 2 o más nuevo, o los chips Google Tensor — corren la inferencia notablemente más rápido y con mejor eficiencia de batería que los que dependen solo de CPU. En cuanto al runtime, LiteRT-LM puede ejecutar Gemma 4 E2B usando menos de 1,5 GB de memoria en algunos dispositivos, gracias al soporte para cuantización de pesos de 2 y 4 bits.

Para los devs que quieran ir más allá de la app, el CLI litert-lm está disponible en Linux, macOS y Raspberry Pi, y permite experimentar con Gemma 4 sin escribir ningún código.

¿Está lista la IA en el edge para producción?

La respuesta honesta es: depende del caso de uso y del dispositivo objetivo. Para apps consumer apuntando a Android de gama media-alta con Gemma 4 4B, estás en territorio genuinamente usable. Para cualquier cosa que requiera la capacidad de razonamiento completa de un modelo frontier, seguís necesitando la nube.

Pero el umbral está corriendo. El hecho de que Agent Skills — workflows autónomos de múltiples pasos — corran completamente on-device es un hito real. Y para casos de uso donde la privacidad es no negociable o la conectividad es poco confiable, la propuesta de valor ya está ahí.

Por dónde empezar