Los benchmarks son impresionantes. Pero ese no es el titular.
Google DeepMind lanzó Gemma 4 el 2 de abril — cuatro modelos open-weight que van desde dispositivos edge hasta GPUs de datacenter — y las especificaciones técnicas son genuinamente sólidas. El modelo 31B Dense está en el puesto #3 del leaderboard de modelos abiertos de Arena AI. El modelo 26B Mixture of Experts ocupa el #6 activando apenas 3.800 millones de parámetros durante la inferencia. Los pesos sin cuantizar del 31B entran en una sola H100 de 80GB; las versiones cuantizadas corren en GPUs de consumo.
Pero los desarrolladores que llevan 18 meses siguiendo el espacio de modelos open-weight ya saben que Google puede lanzar modelos capaces. Lo que estaban observando era otra cosa: si Google finalmente iba a eliminar la fricción legal que hacía riesgoso desplegar Gemma en entornos empresariales.
Lo hizo.
Apache 2.0: La Decisión que Cambia Todo
Las generaciones anteriores de Gemma se distribuían bajo una licencia propia que prohibía ciertos escenarios de despliegue y reservaba el derecho de Google a terminar el acceso si los usuarios no cumplían sus condiciones. En la práctica, esto significaba que los despliegues empresariales y soberanos trataban a Gemma como un pasivo. Los equipos legales decían que no. Procurement decía que esperara.
Gemma 4 se lanza bajo Apache 2.0. Punto.
El cofundador de Hugging Face, Clément Delangue, calificó esto como “un hito enorme” — y tiene razón, aunque quizás no por las razones obvias. Apache 2.0 no solo hace que Gemma sea legalmente más seguro. Lo hace estratégicamente comparable a los modelos de Mistral, Meta y los laboratorios chinos que han estado erosionando el mindshare empresarial de Google en la categoría de modelos abiertos. Un modelo que podés desplegar sin una conversación de revisión legal es un modelo que realmente se despliega.
Para los equipos de desarrollo en América Latina que construyen para industrias reguladas — fintech, salud, gobierno — esto importa de maneras que las tablas de benchmarks no van a capturar.
Lo que la Estrategia de Cuatro Tamaños Está Diciendo en Realidad
Vale la pena analizar el lineup con cuidado:
E2B y E4B — Diseñados para teléfonos Android, Raspberry Pi y hardware Jetson Nano. Audio nativo incluido. Ventana de contexto: 128K. Estos modelos son hasta 4 veces más rápidos que Gemma 3 en hardware equivalente, con un 60% menos de consumo de batería. También van a ser la base de Gemini Nano 4, el próximo modelo on-device de Google para Android, que llegará a dispositivos de consumo más adelante este año.
26B MoE (3.8B activos) — La apuesta por la latencia. 128 expertos, 3.800 millones activados por inferencia. Ventana de contexto: 256K. Este es el modelo que corrés cuando necesitás tokens por segundo rápidos con VRAM limitada. Asistentes de código local, inferencia edge, despliegues cloud de menor costo.
31B Dense — El techo de calidad. Ventana de contexto: 256K. Entra sin cuantizar en una sola H100; corre cuantizado en GPUs de consumo. Actualmente el modelo abierto #3 del mundo en el leaderboard de texto de Arena AI.
Los cuatro modelos son multimodales — imágenes y video en toda la familia; audio en los dos variantes edge. Function calling nativo y output estructurado en JSON están integrados, lo que importa para flujos de trabajo agénticos.
El rango es deliberado. Google no está lanzando un modelo — está lanzando una plataforma que puede correr en una Raspberry Pi y en una H100 de datacenter bajo el mismo paraguas de licencia Apache 2.0. Esa es una respuesta coherente a una pregunta con la que las empresas han estado luchando: “¿Cómo corremos IA localmente en algunos contextos y a escala en otros, sin mantener dos familias de modelos completamente distintas?”
El Contexto Competitivo que Explica la Urgencia
The Register lo formuló sin rodeos en su cobertura: este lanzamiento es una respuesta directa a los modelos open-weight chinos de Moonshot AI, Alibaba y Z.AI, muchos de los cuales ya rivalizan con los modelos propietarios de frontera. Google está ofreciendo a los clientes empresariales una alternativa — una que no va a absorber datos corporativos sensibles para entrenar futuros modelos, que corre en su propio hardware, y que ahora tiene una licencia que los equipos legales realmente pueden aprobar.
Para los equipos de desarrollo latinoamericanos, el encuadre de “alternativa doméstica” importa menos que el de soberanía. Un modelo que podés correr completamente en tu propia infraestructura, bajo Apache 2.0, en más de 140 idiomas, es un modelo alrededor del cual podés construir argumentos reales de gobernanza de datos. Eso no es una consideración menor en verticales regulados.
Qué Hacer Concretamente con Todo Esto
Si estás evaluando modelos open-weight para uso en producción hoy:
El E4B vale la pena testearlo de inmediato para cualquier caso de uso móvil o on-device. La combinación de audio nativo, input multimodal y Apache 2.0 lo convierte en el modelo pequeño más viable comercialmente que Google ha lanzado hasta ahora.
Para asistentes de código local y pipelines RAG, el 26B MoE es la arquitectura a seguir de cerca. La ventaja en velocidad de inferencia sobre hardware limitado es real — acá es donde el argumento de eficiencia MoE realmente se sostiene en la práctica.
Para experimentos de fine-tuning, el 31B Dense tiene un camino directo a través de Colab, Vertex AI y Unsloth. Google confirmó soporte desde el día uno en HuggingFace (Transformers, TRL), vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM y LM Studio.
La familia Gemma ya superó los 400 millones de descargas totales y más de 100.000 variantes comunitarias. Gemma 4 bajo Apache 2.0 es la primera versión donde ese momentum comunitario se va a traducir directamente en despliegues de producción a escala.
Ese es el titular.
¿Tu equipo está evaluando modelos open-weight para producción? ¿Qué criterios pesan más — rendimiento, costo, licencia, o soberanía de datos? Contanos en los comentarios ![]()
