Google lanza Gemma 4, su gran apuesta de IA abierta y local

  • Gemma 4 es una familia de cuatro modelos de IA abiertos basada en la tecnología de Gemini 3, con tamaños desde E2B hasta 31B parámetros.
  • Los modelos combinan alta "inteligencia por parámetro" con ejecución local en móviles, edge e infraestructuras propias, gracias a ventanas de contexto de hasta 256K tokens.
  • La licencia Apache 2.0 permite uso comercial sin restricciones, refuerza la soberanía digital y facilita el despliegue en entornos regulados en Europa.
  • Gemma 4 es multimodal (texto, imagen, vídeo y audio en los modelos pequeños), soporta más de 140 idiomas y está disponible en Google AI Studio, Hugging Face, Kaggle y Ollama.

Modelo de IA Gemma 4

Google ha dado un paso importante en su estrategia de inteligencia artificial abierta con el lanzamiento de Gemma 4, una nueva familia de modelos que aspira a combinar altos niveles de razonamiento con requisitos de hardware mucho más contenidos. La compañía plantea esta generación como una alternativa seria para quienes necesitan ejecutar IA avanzada en infraestructuras propias, desde móviles hasta centros de datos.

Lejos de ser un único modelo, Gemma 4 es una gama completa de cuatro variantes abiertas, pensada para desarrolladores, empresas y entidades públicas que quieren más control sobre sus datos y sus despliegues. La propuesta encaja especialmente bien con las exigencias de soberanía digital y cumplimiento normativo en Europa, donde cada vez pesa más poder decidir dónde se ejecuta y dónde se almacenan los datos.

Una familia de cuatro modelos centrada en la «inteligencia por parámetro»

Familia de modelos Gemma 4

Gemma 4 se ha construido sobre la misma base tecnológica que Gemini 3, pero con un objetivo claro: maximizar lo que Google denomina «inteligencia por parámetro». En lugar de competir únicamente por tamaño, la compañía presume de haber logrado que modelos relativamente compactos rindan al nivel de sistemas mucho más grandes.

La familia se compone de cuatro tamaños diferenciados: Effective 2B (E2B), Effective 4B (E4B), un modelo de 26B con arquitectura Mixture of Experts (MoE) y una variante densa de 31B parámetros. Este último se sitúa ya en el top 3 del ranking de Arena AI para modelos abiertos, superando a alternativas que multiplican por veinte su número de parámetros, algo especialmente relevante para quienes buscan reducir costes en GPU sin renunciar a calidad.

El modelo de 26B MoE está optimizado para activar solo una fracción de sus parámetros (en torno a 3,8B) en inferencia, mejorando la velocidad de generación de tokens y la eficiencia energética. Frente a él, la versión 31B densa se posiciona como la opción preferente para tareas de ajuste fino exigente, orquestación compleja y uso intensivo en entornos empresariales o institucionales.

Google subraya que, en términos de benchmarks públicos, estas variantes compiten directamente con modelos más pesados de otros proveedores, incluidos los de fabricantes chinos como DeepSeek o Qwen, que en los últimos años se habían hecho fuertes en el ecosistema open source. El 31B de Gemma 4 figura como tercer mejor modelo abierto en Arena AI, mientras que el 26B MoE se sitúa también en posiciones destacadas.

Desde una perspectiva de negocio, esa relación entre tamaño y rendimiento implica menos gasto en hardware, menor latencia y la posibilidad de ejecutar modelos de frontera en una única GPU NVIDIA H100 de 80GB, algo que abre la puerta a que empresas medianas europeas puedan trabajar con IA avanzada sin invertir en infraestructuras desproporcionadas.

IA que cabe en el bolsillo: móviles, IoT y edge computing

Gemma 4 en dispositivos móviles

Los modelos más pequeños, E2B y E4B, están diseñados expresamente para funcionar en el borde de la red, es decir, en dispositivos móviles, IoT y hardware local. Google señala que estas variantes están optimizadas para ejecutarse en smartphones Android, Raspberry Pi, Jetson Nano y otros sistemas de bajo consumo, con latencias muy reducidas e incluso sin conexión a internet.

En este segmento, la prioridad no es solo la potencia bruta, sino la capacidad de ofrecer funciones multimodales y respuesta rápida en entornos con recursos limitados. Los modelos edge de Gemma 4 pueden manejar texto, imágenes y vídeo, y en el caso de E2B y E4B añaden soporte nativo de audio, lo que permite casos de uso como asistentes de voz locales, reconocimiento de imágenes en campo o análisis de vídeo en tiempo real sin necesidad de enviar datos a la nube.

La ventana de contexto para estos modelos ligeros alcanza los 128.000 tokens, suficiente para procesar documentos largos, conversaciones extensas o fragmentos de código relevantes en un solo prompt. Según Google, esta combinación de contexto amplio y ejecución local ayuda a eliminar fricciones de privacidad, conectividad y latencia, algo muy relevante para proyectos industriales, sanitarios o educativos en Europa donde las restricciones sobre el tratamiento de datos son cada vez más estrictas.

Desde la perspectiva de los fabricantes de hardware, Gemma 4 abre la puerta a integrar IA avanzada directamente en productos de consumo: desde smartphones y tablets hasta dispositivos médicos o sensores industriales. La compañía ha resaltado que estos modelos están adaptados para funcionar con chips de proveedores habituales del ecosistema Android, como Qualcomm o MediaTek, facilitando su adopción masiva.

Además, la arquitectura de los modelos edge aprovecha técnicas como los Per-Layer Embeddings (PLE) para maximizar la eficiencia del uso de parámetros, lo que permite ofrecer razonamiento y comprensión de contexto con un coste computacional mucho más bajo de lo habitual en modelos de propósito general.

Multimodalidad, agentes y soporte avanzado para desarrolladores

Capacidades multimodales de Gemma 4

Uno de los puntos fuertes de Gemma 4 es su apuesta clara por los flujos de trabajo agénticos. Los modelos no se limitan a generar texto: integran de forma nativa function calling, salida JSON estructurada e instrucciones de sistema. Esto permite construir agentes autónomos que orquestan varios pasos, llaman a APIs externas y devuelven resultados en formatos fácilmente integrables con aplicaciones empresariales.

Google insiste en que todos los modelos de la familia Gemma 4 se han concebido como razonadores de alto nivel, con modos de pensamiento configurables para ajustar la profundidad del razonamiento según la tarea. Esto se traduce en mejores resultados en razonamiento multietapa, generación de código offline y resolución de problemas complejos, aspectos clave en entornos corporativos y de administración pública donde se requiere fiabilidad.

En el plano multimodal, los cuatro modelos pueden procesar texto e imágenes con distintas resoluciones y relaciones de aspecto, mientras que las variantes E2B y E4B amplían esa capacidad a vídeo y audio. Esta combinación hace posible, por ejemplo, sistemas que analicen documentos con gráficos, vídeos de supervisión industrial o contenido educativo rico, y que generen respuestas contextuales en tiempo real.

La ventana de contexto alcanza los 256.000 tokens en los modelos más grandes, lo que permite cargar repositorios de código completos, largos contratos legales o grandes volúmenes de documentación técnica en una sola consulta. Para equipos de soporte, consultoría o auditoría tecnológica, esto facilita automatizar tareas que hasta ahora requerían muchas horas de revisión manual.

En términos de idiomas, Gemma 4 soporta de forma nativa más de 140 lenguas. Para Europa y, en concreto, para España, esto implica que se pueden desarrollar soluciones multilingües que cubran desde las principales lenguas comunitarias hasta idiomas menos representados, ayudando a cumplir objetivos de accesibilidad e inclusión en servicios públicos y privados.

Integración en la nube, soberanía digital y despliegue en Europa

El despliegue de Gemma 4 no se limita al hardware local. Google ha integrado estos modelos en su oferta en la nube a través de Vertex AI y Google Kubernetes Engine (GKE), permitiendo a las organizaciones configurar recursos específicos de cómputo y escalar cargas de trabajo de inferencia según demanda. Para sectores regulados europeos, esto se combina con opciones de Nube Soberana y despliegues air-gapped o on-premise, ajustados a los requisitos de residencia de datos y cumplimiento del Reglamento General de Protección de Datos (RGPD).

La compañía destaca que los pesos de precisión bfloat16 de los modelos grandes pueden ejecutarse de forma eficiente en una única GPU NVIDIA H100 de 80GB, reduciendo la barrera de entrada para empresas medianas o instituciones públicas que quieren mantener el control de su infraestructura. En versiones cuantizadas, los modelos pueden funcionar también en hardware de consumo o estaciones de trabajo, ampliando el abanico de posibles despliegues.

Para los responsables de tecnología en España y el resto de Europa, esta combinación de modelo abierto, despliegue controlado y soporte en nube soberana permite diseñar arquitecturas híbridas: una parte de la inteligencia puede residir en data centers locales, mientras que otras cargas menos sensibles se ejecutan en la nube pública, todo ello manteniendo una base tecnológica común.

Además, Google ofrece un Agent Development Kit (ADK), un marco modular que facilita crear, probar y poner en producción agentes basados en Gemma 4. También se apoya en servicios como Cloud Run con GPUs NVIDIA RTX PRO 6000 (Blackwell) en modalidad serverless, lo que permite arrancar proyectos piloto de alta intensidad sin necesidad de adquirir hardware propio desde el primer día.

En un contexto europeo en el que el debate sobre IA suele girar en torno a control, transparencia y auditabilidad, la posibilidad de desplegar modelos abiertos bajo Apache 2.0 en infraestructuras controladas resulta especialmente atractiva para administraciones, bancos, aseguradoras o empresas del sector salud que necesitan compatibilizar innovación con marcos regulatorios estrictos.

Licencia Apache 2.0, ecosistema abierto y tracción comunitaria

Si hay un aspecto que ha generado especial interés en la comunidad es la decisión de licenciar Gemma 4 bajo Apache 2.0. Versiones anteriores de Gemma utilizaban licencias personalizadas que generaban dudas legales en productos comerciales; ahora, con una licencia estándar de código abierto, desarrolladores y empresas pueden modificar, redistribuir y monetizar los modelos con mucha menos fricción.

Esta apertura llega en un momento en que Google intenta recuperar terreno en el ecosistema de modelos abiertos, tras un periodo en el que alternativas como Llama de Meta o modelos chinos (DeepSeek, Qwen, GLM, Minimax) habían ganado cuota de adopción. Voces influyentes del sector, como el cofundador de Hugging Face, han descrito el movimiento como un «hito enorme» para la IA local, destacando que los equipos legales ahora tienen un marco mucho más claro para aprobar proyectos basados en Gemma 4.

El ecosistema alrededor de la familia Gemma ya mostraba músculo antes de esta versión. Google señala que las generaciones previas superan los 400 millones de descargas y que la comunidad ha creado más de 100.000 variantes adaptadas a distintos idiomas y casos de uso. Entre los ejemplos más llamativos se encuentran modelos especializados en búlgaro o herramientas de investigación oncológica como Cell2Sentence-Scale desarrollada en la Universidad de Yale.

Con Gemma 4, la compañía espera que ese «Gemmaverse» se amplíe todavía más, invitando a startups europeas, universidades y centros de investigación a crear sus propias derivadas. La combinación de licencia permisiva y pesos abiertos permite que se desarrollen versiones centradas en sectores concretos, como sanidad, justicia, industria 4.0 o educación, que luego puedan compartirse o comercializarse sin demasiadas restricciones.

Para las empresas españolas, esta situación implica que es posible construir soluciones propietarias sobre Gemma 4 —como asistentes internos, motores de búsqueda corporativos o sistemas de analítica avanzada— manteniendo el control del código, los datos y la infraestructura, algo que encaja bien con la tendencia de reforzar la soberanía tecnológica europea.

Casos de uso: desde startups a grandes corporaciones

Gemma 4 se ha presentado con un abanico amplio de aplicaciones potenciales. En el ámbito empresarial, los modelos pueden emplearse para crear asistentes virtuales multilingües capaces de gestionar consultas complejas mediante razonamiento avanzado, o para automatizar la generación y revisión de código en equipos de desarrollo.

Los modelos de mayor tamaño se orientan a tareas como orquestación de agentes, análisis de grandes volúmenes de documentación, generación de informes técnicos o asistencia a departamentos legales y de cumplimiento normativo. La combinación de ventanas de contexto amplias y soporte multimodal facilita que un único agente pueda trabajar con contratos, correos, gráficos, imágenes de sistemas de monitorización y registros de audio, todo dentro del mismo flujo.

En educación y sector público, la capacidad de procesar texto, imágenes y, en algunos casos, vídeo y audio, permite crear plataformas de apoyo al aprendizaje que generen resúmenes, explicaciones paso a paso o materiales adaptados a diferentes niveles. La ejecución local ayuda además a respetar requisitos de privacidad cuando se trabaja con datos sensibles de menores o colectivos vulnerables.

En el terreno de las startups, Gemma 4 puede ser la base de productos verticales en fintech, salud digital, logística o SaaS B2B, gracias a la flexibilidad que ofrece Apache 2.0. Los equipos pueden hacer fine-tuning del modelo sobre sus propios datos, desplegarlo on-premise o en la nube y comercializar el resultado sin atarse a licencias propietarias estrictas.

Particularmente interesante para Europa es la posibilidad de desarrollar soluciones de IA local que respeten normas nacionales y comunitarias, por ejemplo, almacenando los datos en centros de datos ubicados en territorio europeo y manteniendo los modelos bajo control directo de la organización, lo que puede ser clave para proyectos vinculados al futuro Reglamento de IA de la UE.

Dónde y cómo acceder a Gemma 4

Google ha puesto a disposición los modelos Gemma 4 en varios canales para facilitar su adopción por parte de desarrolladores e investigadores. Los pesos abiertos pueden descargarse desde Hugging Face y GitHub, mientras que el uso a través de interfaz y APIs está disponible en Google AI Studio. También se ofrecen integraciones con Ollama, Docker, Kaggle y herramientas como LM Studio.

Según la compañía, Gemma 4 se puede ejecutar de forma local en «miles de millones de dispositivos Android» y en un amplio rango de hardware: desde GPU de portátiles y estaciones de trabajo hasta aceleradores específicos para desarrolladores. Esto encaja con la estrategia de extender la IA avanzada más allá de los grandes centros de datos, hacia dispositivos de usuario final y entornos de edge computing.

Para quienes quieren empezar con pruebas rápidas, la opción más directa pasa por usar Google AI Studio para los modelos de 26B y 31B o la Google AI Edge Gallery en el caso de las variantes E2B y E4B. En paralelo, las comunidades de desarrolladores en plataformas como Hugging Face ya están publicando adaptaciones y configuraciones listas para usar en diferentes entornos.

En España y otros países europeos, es previsible que integradores locales y proveedores de servicios gestionados empiecen a ofrecer soluciones llave en mano basadas en Gemma 4, combinando despliegues en nube soberana, soporte en castellano y adaptación a regulaciones sectoriales específicas, como las de servicios financieros o sanidad.

En conjunto, el lanzamiento de Gemma 4 sitúa a Google como uno de los actores más relevantes en el terreno de los modelos de IA abiertos y ejecutables localmente, en un momento en el que la industria europea demanda precisamente herramientas que combinen alto rendimiento, control sobre los datos y marcos de licencia claros para construir productos comerciales a largo plazo.

edge ia más privacidad
Artículo relacionado:
Edge AI y privacidad: IA potente sin entregar tus datos