Google DeepMind apresenta família de quatro modelos open source sob licença Apache 2.0 com até 256K tokens de contexto, capacidades multimodais e suporte a mais de 140 idiomas
Google DeepMind lançou Gemma 4, família de modelos de inteligência artificial open source construída a partir da pesquisa por trás do Gemini 3. Os quatro modelos variam de 2,3 bilhões a 31 bilhões de parâmetros efetivos e chegam sob licença Apache 2.0, pela primeira vez na história da família Gemma.
A mudança de licenciamento representa uma abertura significativa em relação às versões anteriores, que operavam sob os Gemma Terms of Use. Com a Apache 2.0, desenvolvedores e empresas podem usar, modificar e distribuir os modelos livremente para aplicações comerciais sem restrições proprietárias.
Os modelos estão disponíveis gratuitamente no Google AI Studio, Hugging Face, Kaggle, Ollama e LM Studio. A família Gemma acumula mais de 400 milhões de downloads desde o lançamento da primeira geração, segundo o Google, e a comunidade já criou mais de 100 mil variantes.
Google DeepMind apresenta quatro modelos com capacidades distintas
A nova família traz quatro variantes projetadas para cenários diferentes de uso. O Gemma 4 E2B conta com 2,3 bilhões de parâmetros efetivos e 5,1 bilhões no total, enquanto o E4B opera com 4,5 bilhões efetivos e 8 bilhões totais. Ambos utilizam janela de contexto de 128 mil tokens.
Para aplicações em nuvem e servidores, os modelos maiores oferecem capacidade ampliada. O Gemma 4 26B A4B emprega arquitetura Mixture-of-Experts com 26 bilhões de parâmetros totais, porém apenas 4 bilhões ativos durante a inferência. O modelo 31B Dense utiliza todos os 31 bilhões de parâmetros e entrega a maior capacidade da família.
Todos os quatro modelos suportam mais de 140 idiomas e processam entradas multimodais, incluindo texto, imagens e vídeo. Os modelos 26B e 31B contam com janela de contexto expandida de 256 mil tokens, adequada para documentos extensos e fluxos de trabalho complexos.
Benchmarks posicionam modelo de 31 bilhões entre os mais competitivos
O Gemma 4 31B Dense alcançou 89,2% no AIME 2026, benchmark de raciocínio matemático avançado, de acordo com dados publicados pelo Google Blog e pelo Google DeepMind. No LiveCodeBench v6, referência para geração de código, o modelo atingiu 80%. A pontuação no Arena AI, que mede preferência humana, chegou a 1.452 ELO.
No GPQA Diamond, teste de raciocínio científico, o 31B registrou 84,3%. O Codeforces ELO, que avalia capacidade de programação competitiva, posicionou o modelo em 2.150 pontos. No conjunto, esses resultados colocam o Gemma 4 31B em competição direta com modelos que possuem consideravelmente mais parâmetros.
Ainda assim, o modelo 26B MoE apresentou desempenho próximo ao 31B em diversas métricas, apesar de ativar apenas 4 bilhões de parâmetros na inferência. No Arena AI, atingiu 1.441 ELO — apenas 11 pontos abaixo do 31B — com aproximadamente oito vezes menos computação necessária.
Arquitetura combina eficiência e profundidade de raciocínio
A arquitetura do Gemma 4 incorpora técnicas avançadas, conforme documentado pela Hugging Face. O sistema de alternating attention combina camadas de janela deslizante local com camadas de contexto global completo. O Dual RoPE aplica codificação posicional padrão nas camadas de sliding window e proporcional nas camadas globais.
O recurso Per-Layer Embeddings alimenta uma tabela de embeddings secundária como sinal residual em cada camada do decodificador. Além disso, o Shared KV Cache permite que as últimas N camadas reutilizem estados de key-value de camadas anteriores, reduzindo o uso de memória sem comprometer a qualidade das respostas.
O codificador de visão utiliza posições 2D aprendidas com RoPE multidimensional e orçamentos configuráveis de tokens visuais. Os modelos E2B e E4B incluem também um codificador de áudio baseado em conformer, adicionando capacidades nativas de processamento sonoro.
Modelos compactos processam imagem, vídeo e áudio no dispositivo
Todos os quatro modelos aceitam entradas de imagem e vídeo com resoluções variáveis. Os modelos E2B e E4B possuem capacidade adicional de processamento nativo de áudio, que permite reconhecimento de fala e compreensão de conteúdo sonoro diretamente no dispositivo, sem depender de servidores externos.
Além disso, os modelos compactos foram projetados para operação offline com latência próxima de zero. Segundo dados do Google DeepMind, os modelos E2B e E4B rodam em smartphones, Raspberry Pi e Jetson Nano. Essa portabilidade amplia as possibilidades de uso em cenários com conectividade limitada.
Na parte de automação, o suporte a function calling nativo permite que os modelos executem workflows agênticos, incluindo navegação de aplicativos e conclusão de tarefas automatizadas. O Gemma 4 também gera saídas estruturadas em JSON para detecção de objetos e bounding boxes nativamente.
Quatro tamanhos cobrem do smartphone ao data center
O E2B atende cenários de edge computing em dispositivos com recursos limitados, enquanto o E4B oferece capacidade intermediária para aplicações mobile mais exigentes. Ambos estão disponíveis com quantizações GGUF para implantação otimizada em hardware diverso.
Por outro lado, os modelos 26B e 31B destinam-se a servidores e ambientes de nuvem. A versão 26B MoE equilibra desempenho e eficiência computacional, ativando apenas 4 bilhões de parâmetros por inferência. O 31B Dense entrega capacidade máxima para tarefas que demandam raciocínio profundo e contexto extenso.
As plataformas de distribuição incluem Google AI Studio, Hugging Face, Kaggle, Ollama, LM Studio e Docker. Os frameworks compatíveis abrangem JAX, Vertex AI, Keras e Google AI Edge, além de integrações com o ecossistema Gemini AI do Google.
Comunidade Gemma ultrapassa 400 milhões de downloads
A família Gemma acumula mais de 400 milhões de downloads desde a primeira geração, segundo o Google. Os desenvolvedores construíram mais de 100 mil variantes customizadas dos modelos, formando o ecossistema que o Google denomina “Gemmaverse”.
Do ponto de vista de licenciamento, o Gemma 4 representa a primeira vez que a família adota Apache 2.0. As versões anteriores utilizavam os Gemma Terms of Use, que impunham restrições adicionais de redistribuição e uso comercial. A mudança elimina essas limitações e equipara o licenciamento ao padrão adotado por outros modelos open source.
Os modelos foram construídos a partir da mesma base de pesquisa e tecnologia do Gemini 3, conforme informações do Google DeepMind. Versões instruction-tuned de todos os quatro modelos estão disponíveis para download imediato nas plataformas listadas.