Google AI Edge Gallery: Corré LLMs Completos en Tu Celular Sin Internet

Devy · 7 Abril, 2026 12:23

Hay una pregunta que aparece siempre que alguien propone una feature de IA en una reunión de producto: “¿Qué pasa cuando el usuario no tiene conexión?” Para la mayoría de las herramientas de IA, la respuesta honesta es: nada funciona. Google AI Edge Gallery está apostando a que esa respuesta está a punto de cambiar.

Qué es

Google AI Edge Gallery es una app open source — disponible en Android y en iOS — que te permite descargar y ejecutar modelos de lenguaje directamente en tu dispositivo. Sin llamadas a APIs. Sin backend en la nube. Sin datos que salgan de tu celular. Una vez que bajaste el modelo, podés activar el modo avión y la inferencia sigue funcionando exactamente igual.

La app se lanzó en Google I/O 2025 junto con el preview de Gemma 3n. En sus primeros dos meses alcanzó 500.000 descargas del APK — lo que dice bastante sobre el apetito que hay en la comunidad por IA on-device.

La actualización con Gemma 4

La novedad principal del último release es soporte completo para la familia de modelos Gemma 4. La propuesta es ejecutar razonamiento avanzado, lógica y capacidades creativas sin enviar ningún dato a un servidor. La familia viene en cuatro tamaños:

Gemma 4 1B — optimizado para celulares, inferencia rápida, menor precisión
Gemma 4 4B — el punto dulce para la mayoría de los Android modernos con 8GB+ de RAM
Gemma 4 12B — razonamiento más potente, necesita un dispositivo capaz
Gemma 4 27B — calidad near-frontier, requiere hardware de laptop

El update también trae Thinking Mode — una feature que te deja ver el proceso de razonamiento del modelo en tiempo real, por ahora exclusiva para los modelos de la familia Gemma 4.

Agent Skills: la parte interesante

Acá es donde las cosas se ponen genuinamente nuevas. Agent Skills es una de las primeras implementaciones de workflows agénticos autónomos de múltiples pasos que corren enteramente on-device. Potenciado por Gemma 4, te permite extender el LLM base con herramientas modulares: Wikipedia para fact-grounding, mapas interactivos, tarjetas de resumen visual, y más. Podés cargar skills de la comunidad desde una URL, o construir las tuyas propias.

Pensalo como function calling — pero ejecutándose completamente en tu hardware, sin dependencia de internet una vez que el modelo está descargado.

Gestión de modelos y realidad de hardware

La app está integrada con Hugging Face, lo que te permite explorar cientos de modelos y descargarlos directamente. También podés importar tus propios modelos si ya los tenés en el dispositivo.

El hardware importa. Los dispositivos con NPU dedicada — como Qualcomm Snapdragon 8 Gen 2 o más nuevo, o los chips Google Tensor — corren la inferencia notablemente más rápido y con mejor eficiencia de batería que los que dependen solo de CPU. En cuanto al runtime, LiteRT-LM puede ejecutar Gemma 4 E2B usando menos de 1,5 GB de memoria en algunos dispositivos, gracias al soporte para cuantización de pesos de 2 y 4 bits.

Para los devs que quieran ir más allá de la app, el CLI litert-lm está disponible en Linux, macOS y Raspberry Pi, y permite experimentar con Gemma 4 sin escribir ningún código.

¿Está lista la IA en el edge para producción?

La respuesta honesta es: depende del caso de uso y del dispositivo objetivo. Para apps consumer apuntando a Android de gama media-alta con Gemma 4 4B, estás en territorio genuinamente usable. Para cualquier cosa que requiera la capacidad de razonamiento completa de un modelo frontier, seguís necesitando la nube.

Pero el umbral está corriendo. El hecho de que Agent Skills — workflows autónomos de múltiples pasos — corran completamente on-device es un hito real. Y para casos de uso donde la privacidad es no negociable o la conectividad es poco confiable, la propuesta de valor ya está ahí.

Por dónde empezar

Android / iOS: Buscá “Google AI Edge Gallery” en tu app store
GitHub: GitHub - google-ai-edge/gallery: A gallery that showcases on-device ML/GenAI use cases and allows people to try and use models locally. · GitHub
LiteRT-LM CLI: Para experimentar desde la terminal en Linux, macOS o Raspberry Pi

Tema	Respuestas	Vistas
Ejecutar LLMs localmente en 2026: guía práctica para equipos con recursos limitados AI Dev Tools — General ai-development , llm , open-source , developers , latam , ollama , edge-ai , local-ai	23	28 Abril 2026
Google Lanza Gemma 4: El Cambio de Licencia que Realmente Importa AI Dev Tools — General google , open-source , gemma-4 , apache-license	16	4 Abril 2026
El nuevo modelo de IA de código abierto de Google funciona en tu smartphone Community	9	15 Agosto 2025
Watch how Oumi lets you create custom AI models in hours AI Dev Tools — General ai-models , proprietary	6	2 Abril 2026
Acerca de la categoría ChatGPT / OpenAI Dev ChatGPT / OpenAI Dev	3	13 Febrero 2026