Análise do Web Almanac 2025 com dados do HTTPArchive revela que o HTML mediano dos sites pesa 33 KB, cerca de 60 vezes menos que o limite de 2 MB estabelecido pelo Googlebot para indexação
Google atualizou a documentação oficial do Googlebot em 4 de fevereiro de 2026, clarificando que o crawler indexa apenas os primeiros 2 MB de arquivos HTML. A mudança gerou preocupação entre profissionais de SEO sobre possíveis impactos na indexação de páginas.
Dados do HTTPArchive, publicados no Web Almanac 2025, mostram que a preocupação não se justifica para a maioria dos sites. O HTML mediano de páginas na web pesa 33 KB, aproximadamente 60 vezes menos que o limite de 2 MB.
Dave Smart, do Tame The Bots, resumiu a situação: “Correndo o risco de exagerar o quanto isso é um problema real, não é para 99,99% dos sites que eu imagino.”
O que mudou na documentação do Google
A atualização separou os limites de arquivo por tipo de crawler. O Googlebot, responsável pela indexação de páginas para a busca, processa os primeiros 2 MB de HTML. Crawlers genéricos do Google mantêm o limite de 15 MB. PDFs têm limite próprio de 64 MB.
A distinção é relevante porque o URL Inspection Tool do Search Console usa um crawler diferente, o Google-InspectionTool, que opera com o limite de 15 MB. Isso significa que uma página pode parecer completamente indexada na ferramenta de inspeção, mas ter conteúdo truncado na indexação real.
John Mueller, do Google, comentou que “2 MB de HTML, para quem foca no Googlebot, é bastante”. O Google esclareceu que os limites em si não mudaram, apenas a documentação ficou mais precisa.
HTML mediano é 60 vezes menor que o limite
Os dados do HTTPArchive analisados no Web Almanac 2025 mostram que o HTML mediano de home pages pesa 22 KB. Páginas internas pesam 21 KB na mediana. A métrica considera apenas o markup HTML puro, sem CSS, JavaScript ou imagens.
No percentil 90, o HTML atinge 155 KB. Isso significa que 90% dos sites têm páginas com HTML inferior a 155 KB, ainda 13 vezes abaixo do limite de 2 MB.
Os outliers aparecem apenas no percentil 100: 401,6 MB para desktop e 389,2 MB para mobile. Esses valores extremos representam casos excepcionais que não refletem a realidade da maioria dos sites.
Teste prático revela truncamento silencioso
A empresa Spotibo conduziu testes práticos para verificar o comportamento do Googlebot quando páginas excedem o limite. Os resultados revelaram um problema pouco documentado: o Google trunca conteúdo silenciosamente, sem emitir alertas.
Um arquivo HTML de 3 MB foi truncado após os primeiros 2 MB. O Search Console exibiu “URL is on Google” sem nenhum indicador de que parte do conteúdo foi ignorada. O corte aconteceu no meio de uma palavra, sem tratamento especial.
Um arquivo de 16 MB foi rejeitado completamente. O Google retornou uma mensagem genérica de erro, com todos os dados de rastreamento exibidos como indisponíveis. Imagens não foram afetadas pelo limite, pois utilizam um crawler separado.
Quais sites podem ser afetados
Sites com HTML pesado geralmente compartilham características específicas. Páginas com HTML inline extenso, tabelas de dados grandes renderizadas no servidor e single-page applications com conteúdo embutido no markup são os casos mais suscetíveis.
E-commerces com páginas de categoria que listam centenas de produtos com markup completo podem se aproximar do limite. Páginas com JSON-LD estruturado muito extenso também merecem atenção.
A recomendação prática é posicionar conteúdo importante no início do HTML. Se o Googlebot truncar a página em 2 MB, o conteúdo prioritário já terá sido processado.
Como verificar o tamanho do HTML
Profissionais de SEO técnico podem verificar o tamanho do HTML de suas páginas com ferramentas como o HTTPArchive, Screaming Frog ou a funcionalidade de rede do DevTools do navegador. O indicador relevante é o tamanho do documento HTML transferido, não o peso total da página.
O peso total da página inclui CSS, JavaScript, imagens e fontes, que são processados por crawlers diferentes com limites próprios. O limite de 2 MB se aplica exclusivamente ao HTML que o Googlebot processa para indexação.
Se o HTML de uma página exceder 1 MB, vale investigar oportunidades de otimização. Mover estilos para arquivos CSS externos, reduzir markup redundante e carregar conteúdo extenso via JavaScript podem reduzir o tamanho do HTML.
Impacto prático para estratégias de SEO
Para a maioria dos profissionais de SEO, o limite de 2 MB não exige ação imediata. A margem entre o HTML mediano de 33 KB e o limite é grande o suficiente para que apenas casos extremos sejam afetados.
A preocupação mais relevante é a ausência de alertas do Google quando ocorre truncamento. Sites com páginas pesadas podem ter conteúdo parcialmente indexado sem saber, afetando a visibilidade de seções posicionadas ao final do HTML.
A atualização da documentação reforça uma prática já recomendada: estruturar o HTML com conteúdo prioritário no topo e delegar elementos secundários para recursos externos. Para 99,99% dos sites, nenhuma mudança é necessária.