Robots.txt: o que é? Entenda como criar, usar as funções Allow e Disallow e testar de forma gratuita

Mariana Pessoa
Mariana Pessoa

Robots.txt é um arquivo em seu site que indica aos mecanismos de busca quais páginas podem ser acessadas dentro de um site.

O arquivo dos robôs é um tema frequente no dia a dia de profissionais de SEO. Afinal, através deles nós podemos dar instruções aos mecanismos de busca, como o Google, o que é essencial na construção de sites.

Por isso, este conteúdo tem o objetivo de desmistificar o uso do robots.txt, como o arquivo funciona e solucionar as dúvidas frequentes sobre o tema. Continue a leitura para saber mais!

O que é robots.txt

O robots.txt é um arquivo que fica salvo na pasta raiz de um site, e seu objetivo é dar instruções aos robôs dos mecanismos de busca, sendo o Googlebot o principal, quais páginas podem ser acessadas. 

É importante pontuar que o arquivo não funciona como um mecanismo para manter uma página da Web fora dos resultados da pesquisa do Google. Nesses casos, bloqueia a indexação com o noindex ou proteja com uma senha.

Para isso, o robots.txt utiliza um conjunto de comandos, chamado de Protocolo de Exclusão de Robôs. O arquivo é constítuido por uma ou mais regras, que é aplicado aos crawlers para que saibam quais páginas devem ou não ser acessadas. 

Ou seja, se tiver alguma página no seu site que você não gostaria que fosse acessada por robôs, é preciso especificar no robots.txt. Caso contrário, o rastreamento de todos os arquivos é permitido de forma implícita.

Confira um exemplo de robots.txt criado pelo Google:

imagem com exemplos de robots.txt criado pelo google

Ao longo do texto, vou explicar o que significa cada um dos termos da imagem.

Para que serve o arquivo robots.txt?

Como explicado acima, a função do robots.txt é instruir o que pode e o que não pode ser visto e indexado pelos robôs. A seguir, entenda como isso acontece.

Controlar o acesso a determinadas páginas da web

Um site é composto por páginas da web, e o robots.txt, além de proibir que os robôs acessem determinadas páginas, também ajuda a evitar a sobrecarga de acessos crawlers no servidor de hospedagem do seu site.

Isso porque ao acessar um site ou página, os robôs fazem solicitações de acesso, que podem inclusive ser acessados através de plataformas para proprietários de sites, como o Google Search Console. Visitas em excesso podem causar sobrecargas e eventuais quedas, por isso é tão importante escolher uma hospedagem que suporte a sua demenda.

Vale sinalizar também que mesmo instruindo os robôs a não acessarem e indexarem determinadas páginas, isso não impedirá o acesso dos usuários que já possuem a URL. Um exemplo é a página de login de softwares ou contas, que muitas vezes são desabilitadas para os robôs mas acessíveis para o usuário.

Controlar o acesso a determinadas imagens

Além de instruir o acesso dos robôs a determinadas páginas, é possível também controlar que arquivos de imagem do seu site sejam exibidos em resultados de pesquisas. O que é muito eficaz caso haja necessidade de manter informações seguras e com restrições de acesso.

Também pode ser útil como forma de estratégia, já que o usuário será obrigado a entrar na página para visualizar a imagem.

Bloquear acessos a arquivos de recursos

O robots.txt também bloqueia o acesso a arquivos menos importantes, ou de script, caso a página possa ser carregada sem esses recursos e perdas significativas. 

No entanto, é preciso ter cautela ao utilizar essa função do robots.txt, principalmente ao lidar com arquivos indispensáveis ao carregamento da página. O Google não indica o bloquear os robôs de acessarem o JavaScript e CSS, por exemplo, pois pode dificuldar a renderização da página e a experiência do usuário.

Por que o robots.txt é importante para SEO?

Entre as principais razões que tornam o robots.txt importante, é possível destacar:

Evita o rastreamento de algumas páginas

É normal que um site conte com páginas de uso interno, como uma área de login ou página ainda em desenvolvimento.

Todos esses locais costumam utilizar robots.txt para impedir o rastreamento de robôs, o que impedir a indexação entre os resultados no Google.

Além das páginas propriamente ditas, o acesso a arquivos, imagens e até recursos pode ficar restrito.

É uma ótima ferramente para uma estratégia de SEO, já que a ideia é atrair os potenciais leads a uma página específica, como uma landing page, e não ao material final. Assim, usando isso como exemplo, é possível direcionar o tráfego para a landing page e bloquear o acesso dos robôs ao material, garantindo que o usuário fará o cadastro na página.

Indica o seu sitemap

Essa é uma funcionalidade considerada muito simples, mas que ajuda buscadores, como Google e Bing, a encontrarem seus sitemaps e, dessa forma, compreenderem melhor a organização do seu site.

Isso porque, dentro do arquivo do robots.txt, é comum adicionar a URL de onde está localizado o sitemap.

O tempo de rastreio dos robôs no seu site é limitado

O Google já se posicionou com relação ao “Crawl Budget”, seu limite de rastreamento.

Para quem não sabe, na prática, isso significa que ao não utilizar o robots.txt para ordenar ao Google quais páginas não rastrear, ele poderá perder muito mais tempo rastreando páginas que não interessam, e deixando de rastrear aquelas que você quer que apareçam nos resultados de pesquisas.

Se o crawler do Google tiver dificuldades durante o rastreamento e indexação do site, pode ser que o problema seja o limite imposto pelo Crawl Budget. Nesse sentido, restringir o rastreio de determinadas páginas pode resolver o problema.

Conheça a sintaxe do robots.txt

O robots.txt tem como objetivo criar um protocolo de acesso aos robôs de busca. 

Para que consiga executar plenamente essa designação, há expressões específicas, ou seja, expressões com o intuito de passar um comando que permita, ou não, o acesso a determinados locais ou páginas. 

Os principais comandos dentro da sintaxe do robots.txt são:

User-agent

O user-agent é o comando onde vai o nome do rastreador, também conhecido como robô ou crawler, de cada mecanismo de busca. É obrigatório o uso de um ou mais user-agent no arquivo do robots.txt.

Dessa forma, é possível aplicar orientações específicas para cada tipo de rastreador de busca presente na Web. Basta utilizar o comando user-agent e determinar o robô ao qual você está se referindo.

O principal robô de busca do Google é o Googlebot. Sabendo disso, para dar uma ordem a ele, é preciso utilizar o seguinte comando: 

User-agent: Googlebot

Ao usar o caractere * no user-agent, significa que todos os crawlers estão bloqueados, excetos os AdsBot.

Disallow

O comando disallow diz respeito aos locais e páginas que não devem ser acessados pelos rastreadores.

Confira os exemplos:

  • Disallow: /prod/ – orienta aos robôs de busca não rastrearem o conteúdo dentro da pasta “prod”;
  • Disallow: print1.html – orienta aos robôs de busca não rastrearem o conteúdo da página print1.html.

Allow

O comando allow, por outro lado, orienta os robôs com relação às páginas e a outros locais que podem ter seus conteúdos acessados, ou seja, páginas que são permitidas.

Vale sinalizar que o comando deve ser utilizado em situações em que o acesso a um local foi bloqueado por um comando de Disallow, mas você quer permitir o rastreamento de um subdiretório ou de uma página em um diretório proibido aos robôs.

O allow permite que o diretório seja indexado da seguinte forma:

  • Allow: /catalogs/about
  • Se for preciso bloquear uma pasta (‘arquivos’), mas manter o acesso de diretórios (‘projetos’), o comando ficaria:
    • Disallow: /arquivos/
    • Allow: /arquivos/projetos/

Sitemap

Outro comando muito importante do robots.txt é a indicação do sitemap do site, que é um arquivo essencial para ajudar robôs a localizarem todas as páginas existentes do site.

Exemplo de sitemap:

imagem com exemplo de sitemap

Como evitar a indexação de determinadas páginas do site?

O robots.txt pode ser usado para evitar o acesso dos rastreadores a uma página, o que consequentemente pode afetar a indexação de determinadas da mesma na Web.

No entanto, se o seu objetivo for bloquear uma página de ser indexada, o robots.txt não é o melhor caminho. Nas diretrizes sobre o uso do arquivo do Google, eles sinalizam que caso outras páginas redirecionarem o usuário para a página bloqueada, ela poderá ser indexada mesmo sem o robô acessá-la.

E isso pode ser bastante negativo, pois como crawler não terá acessado a página, ela não terá uma descrição na página de resultados.

Por outro lado, se o seu objetivo for apenas bloquear os rastreadores de encontrarem e acessarem sua página, é possível fazer da seguinte maneira:

  • User-agent: *
  • Disallow: /

Já um exemplo que serviria para impedir o rastreamento de uma determinada pasta poderia ser:

  • User-agent: *
  • Disallow: /cgi-bin/ 
imagem com exemplo de tela do wordpress
Exemplo de página que, geralmente, evita-se permitir o rastreamento.

Como criar e testar o seu arquivo robots.txt

É possível criar um arquivo robots.txt usando um simples editor de texto. Mas antes lembre-se: a regra é permitir o acesso a todas as páginas. Assim, crie o robots.txt com base no que os rastreadores não devem acessar.

Crie um arquivo chamado robots.txt

O primeiro passo é criar o arquivo. Pode utilizar o editor de texto de sua preferência, o Google só não recomenda processadores de textos para que não sejam adicionados caracteres inesperados. Ao salvar o arquivo, certifique-se que ele esteja com a codificação UTF-8 caso seja solicitado.

Não esqueça de salvar o nome do arquivo como robots.txt!

Configure seu user-agent

Após conhecer bem a sintaxe de um arquivo robots.txt, inicie configurando o User-agent. Para bloquear o acesso de todos os robôs, use o asteristico (*). 

Adicione o seu disallow

O próximo passo é digitar “Disallow” e nada mais.

Se não houver nada após “Disallow”, os robôs irão rastrear todo o site sem impedimentos.

Teste o seu arquivo

É fundamental testar o arquivo robots.txt para ter certeza de que está tudo devidamente funcionando. 

Para isso, o Google conta com uma ferramenta gratuita de teste que está disponível dentro do Search Console.

Dessa forma, é preciso acessar a ferramenta de teste de robots.txt, selecionar o site associado à conta do Google Search Console que deseja testar e, em seguida, clicar em “Testar”.

Essa ferramenta permite que você teste o endereço de diferentes páginas e arquivos para validar se o Googlebot terá acesso ou não a eles.

Se, após o teste, você visualizar a informação “Permitido”, é sinal de que o robots.txt consegue acessar a URL indicada. 

Caso veja a informação “Bloqueado”, a ferramenta indicará qual regra está bloqueando a leitura da URL indicada. 

exemplo de tela de testes do robots
Exemplo da ferramenta de teste de robots.txt do Google Search Console

Envie o arquivo para o Google

Por último, faça upload do robots.txt através da ferramenta indicada acima. Caso utilize CMS, como WordPress ou Wix, confira como fazer dentro das plataformas, pois talvez não sejapossível alterar o arquivo manualmente.

Importante: sempre faça o upload do robots.txt na raiz de seu site.

Conclusão

O robots.txt, quando configurado da melhor forma possível, é capaz de gerar mais resultados para o seu SEO e melhorar a experiência dos usuários.

Quando os robôs de busca chegarem ao seu site, saberão quais arquivos indexar, o que significa melhor visualização do seu site por parte de quem faz uma pesquisa.

Ao utilizar o robots.txt de forma correta, é possível tornar seu site mais visível e aperfeiçoar a experiência do usuário, criando um círculo virtuoso no qual o arquivo garante que o fluxo seja direcionado a locais que tragam maiores oportunidades de conversão.

Escrito por Mariana Pessoa

Escrito por Mariana Pessoa

Mariana é estrategista de SEO e apaixonada por Marketing Digital. É também produtora de conteúdo no LinkedIn e escritora de ficção nas horas vagas.

Escrito por Mariana Pessoa

Escrito por Mariana Pessoa

Mariana é estrategista de SEO e apaixonada por Marketing Digital. É também produtora de conteúdo no LinkedIn e escritora de ficção nas horas vagas.

Compartilhe este conteúdo
Compartilhe
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.
>