Googlebot: o robô do Google está mais avançado do que nunca; descubra como utilizá-lo ao seu favor

Mariana Pessoa
Mariana Pessoa

O Googlebot é o robô do Google que rastreia, indexa e ranqueia as páginas na SERP do motor de busca. Existem dois tipos de robôs: Googlebot Desktop e Googlebot Mobile, cujo objetivo é simular a ação dos usuários em cada ambiente.

Quem trabalha com SEO já deve ter ouvido o termo Googlebot por aí, certo? O crawler do Google, o buscador mais usado no mundo inteiro, deve ser compreendido para realizarmos um bom trabalho, afinal, a indexação dos resultados orgânicos no Google dependem dele.

Pensando nisso, este artigo tem o objetivo de trazer informações, de forma direta e objetiva, sobre o que é o robô do Google e como ele funciona.

O que é o Googlebot?

Googlebot é o nome do robô, ou crawler, do Google. Sua função é rastrear, indexar e ranquear sites que estão disponíveis na pesquisa do mecanismo de busca. São dois robôs: Googlebot Desktop e o Googlebot Mobile. Enquanto um simula a ação do usuário em computadores, o outro simula em dispositivos móveis.

No entanto, é importante sinalizar que sites são rastreados por ambos robôs. Como eles obedecem ao mesmo token do user agent no robots.txt (Googlebot), não é possível segmentar ou escolher qual dos robôs deve acessar o seu site.

Como é realizado o processo de rastreamento do site?

O rastreamento é a etapa de descoberta. O processo acontece através do Googlebot encontrando novas páginas, links, imagens, vídeos, documentos e o que mais estiver disponível para rastreamento.

O Googlebot simula a ação de um usuário em computadores e dispositivos móveis. Segundo o Google, seu robô utiliza um processo de algoritmos para determinar quais sites rastrear, a frequência das visitas e quantas páginas devem ser buscadas em cada site.

Por isso, sempre vale a pena lembrar: se o Googlebot não puder rastrear a sua página, ela não estará entre os resultados do Google.

Se quiser aprofundar nas etapas, confere o conteúdo sobre o funcionamento dos mecanismos de busca.

Como funciona o Googlebot?

Como todo crawler, o Googlebot acessa um site através de links. Segundo o Google, o acesso do seu robô a um site não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. Ele foi desenvolvido para funcionar simultaneamente em milhares de máquinas com o objetivo de melhorar seu desempenho e a escala de acordo com o crescimento da Web.

Atualmente, o Googlebot rastreia via HTTP/1.1, mas desde novembro de 2020 também consegue rastrear sites que se beneficiam com o HTTP/2, a última versão do protocolo.

Outro ponto importante sobre o acesso do Googlebot a um site é que ele só rastreia os primeiros 15 MB de um arquivo HTML (ou baseado em texto compatível que podem ser indexados). 

O limite se aplica apenas aos conteúdos recebidos na solicitação inicial do Googlebot, não aos recursos que são referenciados na página, como Javascript externo, imagens ou outros elementos referenciados como URL no HTML.

No entanto, essa não deve ser uma preocupação, visto que o tamanho médio de arquivos HTML de sites é de 30 KB. Mas caso uma página do seu site atinja o limite de 15 MB, já fica o aviso: o que ultrapassar não será encaminhado para indexação.

Veja como bloquear o acesso do Googlebot no seu site

Antes de trazer as opções de como bloquear o acesso do Googlebot em um site, é importante dizer que, segundo o próprio Google, é quase impossível manter um servidor da Web em segredo.

Aviso dado, vamos agora às formas de como bloquear o acesso do Googlebot e como elas funcionam.

Remover o conteúdo

A melhor forma de garantir que um site não seja rastreado e apareça na Pesquisa Google, ou em qualquer outro lugar, é removendo o conteúdo do site. Você pode conferir o passo a passo neste guia do Google.

Proteger os arquivos com senha

Caso o seu site ou página tenha conteúdo confidencial ou particular que não deve aparecer na SERP, o ideal é armazenar essas informações em um diretório protegido por senha no servidor local. Assim, tanto o Googlebot quanto outros crawlers não poderão acessar e nem indexar o conteúdo.

Utilizar a tag “noindex”

Através da diretiva “noindex”, o Googlebot é impedido de ler a página e indexá-la entre os resultados da pesquisa. As páginas ainda poderão ser acessadas de outras formas (como links externos), mas não serão exibidas na SERP.

Utilizar a tag “nofollow”

Essa diretiva indica ao Googlebot que um link não deve ser seguido. No entanto, como é vista como sugestão, o robô pode simplesmente ignorar.

Não autorizar Serviços do Google específicos

Para páginas da Web que você não quer que sejam incluídas em Serviços do Google específicos, é possível desativar a exibição. Mais detalhes neste artigo do Google

Use o robots.txt para remover ou bloquear imagens

Se você quiser que as imagens do seu site não apareçam nos resultados de pesquisa do Google, basta adicionar um arquivo robots.txt à raiz do servidor que bloqueia a imagem usando o comando “disallow”. 

Utilizar a tag “nosnippet”

Em casos onde você não quer que um snippet do seu site apareça na SERP, é só adicionar a tag <meta name=”robots” content=”nosnippet” /> à seção head no HTML da página. Todavia, essa ação pode gerar uma mensagem confusa nos resultados de pesquisa.

Para saber mais, recomendo o artigo do Google sobre como controlar os snippets nos resultados da pesquisa.

Qual o impacto ocasionado pelo Googlebot?

Como o papel do Googlebot é justamente rastrear e indexar páginas, as suas requisições constantes podem causar uma sobrecarga no servidor, em casos de sites com muitas URLs ou que geram páginas automáticas com base em parâmetros de URL.

Por isso, existe algo chamado de taxa de rastreamento, que limita a busca de dados de um determinado site. Como o Googlebot prioriza o rastreamento sem afetar a experiência dos usuários que acessam o site, essa medida é essencial para evitar sobrecarga.

A taxa de rastreamento pode aumentar ou diminuir de acordo com os seguintes fatores:

  • Integridade do rastreamento: se o site tiver um tempo de resposta muito rápido durante um período, consequentemente o limite de rastreamento aumenta. Porém, se o site estiver lento ou responder com erros de servidor, o Googlebot fará menos rastreamentos, diminuindo o limite.
  • Limite definido no Search Console: os proprietários de sites no Search Console podem reduzir o limite de rastreamento do Googlebot. Mas é importante lembrar que definir limites mais altos não significa que o robô irá rastrear com mais frequência.

Utilize o Googlebot ao seu favor

Para usar o Googlebot de forma estratégica, indico o relatório de rastreamento do Search Console, que fica um pouco escondido dentro da plataforma, mas é essencial para entendermos as requisições que o robô do Google faz na nossa propriedade.

Segue um breve tutorial para acessar o relatório Estatísticas de rastreamento:

  1. Acesse o Google Search Console;
  2. Vá até em configurações, que fica na lateral esquerda, bem embaixo;
  1. Na configurações, vá até as estatísticas de rastreamento e clique em “abrir relatório”. Pronto! Com isso, você terá acesso às estatísticas de rastreamento do seu site, que nada mais são do que as requisições que o Googlebot realiza na propriedade.

No relatório, temos acesso a informações muito importantes, tais como tempo médio de resposta do servidor e o tamanho total dos downloads de todos os arquivos e recursos transferidos por download durante o rastreamento.

Além disso, através do relatório podemos encontrar problemas que estejam prejudicando a taxa de rastreamento de um site por filtros, como tipo de resposta do servidor, tipo de arquivo, finalidade e por tipo de Googlebot. 

Essa é a melhor maneira de utilizar o Googlebot a nosso favor, afinal, muitos dos fatores de ranqueamento dependem de como o robô interpreta um site.

Conclusão

Conhecer o Googlebot e o seu funcionamento eleva o nível de qualquer pessoa que trabalhe com SEO. É bom lembrar que, graças a esse robô, o Google consegue coletar altos volumes de dados e transformá-los em resultados que respondam a nossa intenção de busca ao realizar pesquisas.

Espero que o conteúdo tenha tirado as suas dúvidas, e se quiser continuar aprendendo sobre SEO, continue no Blog da Conversion, a maior agência referência de SEO no Brasil.

Escrito por Mariana Pessoa

Escrito por Mariana Pessoa

Mariana é estrategista de SEO e apaixonada por Marketing Digital. É também produtora de conteúdo no LinkedIn e escritora de ficção nas horas vagas.

Escrito por Mariana Pessoa

Escrito por Mariana Pessoa

Mariana é estrategista de SEO e apaixonada por Marketing Digital. É também produtora de conteúdo no LinkedIn e escritora de ficção nas horas vagas.

Compartilhe este conteúdo
Compartilhe
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.
>