Sumário
Compartilhe
O robots.txt é um arquivo em seu site que indica aos crawlers, ou seja, aos robôs dos mecanismos de busca, quais páginas ele pode ler e indexar com o intuito de exibi-las nos resultados de pesquisa de buscadores (como o Google).
Hoje, trataremos sobre robots.txt, para que serve, por que é tão importante, como é a sintaxe do robots.txt, como criar (e testar) robots.txt, entre outras questões.
O robots.txt é um grande aliado do SEO do seu site, ajudando na correta indexação do conteúdo de forma otimizada. Saiba tudo sobre o assunto a seguir.
O que é robots.txt
Trata-se de um arquivo que fica salvo na pasta raiz de um site e indica aos robôs de busca (como Google, Bing, entre outros) quais páginas devem, ou não, ser indexadas no banco de dados dos buscadores.
No caso, o robots.txt utiliza um conjunto de comandos, chamado de Protocolo de Exclusão de Robôs, que é aplicado aos robôs de busca para que saibam quais páginas não devem ser acessadas.
O arquivo, salvo na pasta raiz do site, é simples de ser acessado, bastando digitar o endereço do site em um navegador, seguido pelo nome de arquivo “/robots.txt”.
Para que serve o arquivo robots.txt?
Resumidamente, o robots.txt serve para ordenar o que pode e o que não pode ser visto pelos robôs de busca. Entenda melhor, a seguir, o conceito a partir de algumas funções especificadas.
Controlar o acesso a determinadas páginas da web
Um site é composto por páginas da web, e o robots.txt, além de proibir que robôs de busca, como o Googlebot, acessem determinadas páginas (que possam conter dados restritos ou informações irrelevantes para sua estratégia), também ajuda a evitar a sobrecarga de acessos dos robôs de busca no servidor que hospeda o site.
Importante: ainda que os robôs de busca não possam acessar determinadas páginas, nada impedirá que o próprio usuário o faça caso tenha o link de acesso direto.
Controlar o acesso a determinadas imagens
O robots.txt, além de restringir o acesso do robô a determinadas páginas, também impede que arquivos de imagem do seu site sejam exibidos em resultados de pesquisas.
Isso é muito eficaz caso haja necessidade de manter informações seguras e com restrições de acesso.
Pode ajudar, também, como forma de estratégia, já que o usuário será obrigado a entrar na página para visualizar a imagem, o que tende a ser interessante para algumas empresas.
Bloquear acessos a arquivos de recursos
Além de restringir o acesso a páginas e imagens, o robots.txt também bloqueia o acesso a arquivos menos importantes, ou de script, o que ajuda a poupar servidores.
Mesmo se tratando de arquivos de menor importância, é preciso ter cautela ao utilizar essa função do robots.txt, principalmente ao lidar com arquivos indispensáveis ao carregamento da página, já que, ao dificultar o trabalho dos robôs rastreadores, como o crawler, a página como um todo pode ser prejudicada.
Como evitar a indexação de determinadas páginas do site
Como dito, o robots.txt pode ser usado para evitar o acesso e, consequentemente, a indexação de determinadas páginas ou arquivos de um website.
No caso, um exemplo simples de robots.txt que pode impedir a indexação do site como um todo por ferramentas de busca seria:
User-agent: *
Disallow: /
Já um exemplo que serviria para impedir a indexação de uma determinada pasta poderia ser:
User-agent: *
Disallow: /cgi-bin/

Por que o robots.txt é importante?
Entre as principais razões que tornam o robots.txt importante, é possível destacar:
Evita o rastreamento de algumas páginas
É normal que um site conte com páginas de uso interno, uma área de login ou uma página ainda em desenvolvimento.
Todos esses locais costumam utilizar robots.txt para impedir o rastreamento de robôs.
Além das páginas propriamente ditas, o acesso a arquivos, imagens e até recursos pode ficar restrito.
Para quem investe em SEO, trata-se de uma ótima ferramenta, já que a ideia é atrair os potenciais leads a uma página específica, como uma landing page, e não ao material final, por exemplo.
Indica os seus sitemaps
Essa é uma funcionalidade considerada muito simples, mas que ajuda buscadores, como Google e Bing, a encontrarem seus sitemaps e, dessa forma, compreenderem melhor a organização do seu site.
O tempo de rastreio dos robôs no seu site é limitado
É importante saber que o Google já se posicionou com relação ao “Crawl Budget”, seu limite de rastreamento.
Para quem não sabe, na prática, isso significa que, ao não utilizar o robots.txt para ordenar ao Google quais páginas não deve rastrear, ele poderá perder muito mais tempo rastreando páginas que não interessam, e deixando de rastrear aquelas que você quer que apareçam nos resultados de pesquisas.
Se o crawler do Google tiver dificuldades durante o rastreamento e indexação do site, pode ser que o problema seja o limite imposto pelo Crawl Budget.
Nesse sentido, restringir o rastreio de determinadas páginas resolve o problema.
Sintaxe do robots.txt
O robots.txt tem como objetivo criar um protocolo de acesso aos robôs de busca.
Para que consiga executar plenamente essa designação, há expressões específicas, ou seja, expressões com o intuito de passar um comando que permita, ou não, o acesso a determinados locais ou páginas.
Os principais comandos dentro da sintaxe do robots.txt são:
User-agent
É possível aplicar orientações específicas para cada tipo de robô de busca presente na rede.
Para isso, é preciso utilizar o comando User-agent e determinar o robô ao qual você está se referindo.
O principal robô de busca do Google, por exemplo, é o Googlebot. Sabendo disso, para dar uma ordem a ele, é preciso utilizar o seguinte comando:
User-agent: Googlebot
Ou seja, basta indicar o nome do User-agent.
Disallow e Allow
Disallow
O comando diz respeito aos locais e páginas que não devem ser indexados em sites de buscas.
Exemplos podem ser:
Disallow: /prod/ – orienta aos robôs de busca não indexar o conteúdo dentro da pasta “prod”;
Disallow: print1.html – orienta aos robôs de busca não indexar o conteúdo da página print1.html.
Allow
O comando Allow, por outro lado, orienta os robôs com relação às páginas e a outros locais que podem ter seus conteúdos indexados, ou seja, páginas que serão permitidas.
É importante notar que o comando deve ser utilizado em situações apenas quando o acesso a um local foi bloqueado por um comando de Disallow, mas a intenção era ter indexado um arquivo dentro da página bloqueada.
O Allow permite que o diretório seja indexado da seguinte forma:
Allow: /catalogs/about
Outro exemplo: se for preciso bloquear uma pasta (‘arquivos’), mas manter o acesso de diretórios (‘projetos’), o comando ficaria:
Disallow: /arquivos/
Allow: /arquivos/projetos/
Sitemap
Outro comando muito importante do robots.txt é a indicação do sitemap do site, arquivo muito útil para ajudar robôs de rastreamento a localizarem todas as páginas existentes.
Ainda que seja de grande usabilidade, o comando sitemap tem caído em desuso, e isso se deve ao Google Webmaster Tools, uma ferramenta que permite identificar o local do seu arquivo sitemap de forma mais prática.
Exemplo:
sitemap: https://www.conversion.com.br/sitemap_index.xml
Como criar e testar o seu arquivo robots.txt
É possível criar um arquivo robots.txt usando um simples editor de texto, e apenas isso, de acordo com a sua preferência.
Após conhecer bem a sintaxe de um arquivo robots.txt, inicie configurando o User-agent, de forma que possa se aplicar a todos os robôs de busca, para isso, coloque um asterisco após o termo;
O próximo passo é digitar “Disallow” (e nada mais);
Uma vez que não haverá nada após “Disallow”, os robôs de busca irão rastrear todo o site (sem impedimentos).
Esse passo a passo pode ser considerado o básico de robots.txt.
Lembrando que ele também pode ser adaptado de acordo com o SEO técnico para otimizar a indexação de suas páginas.
Como testar
É fundamental testar o arquivo robots.txt para se ter certeza de que está tudo devidamente funcionando.
Hoje, o Google conta com uma ferramenta gratuita de teste, dentro da plataforma Search Console.
Dessa forma, é preciso acessar a ferramenta de teste de robots.txt, selecionar o site associado à conta do Google Search Console que deseja testar e, em seguida, clicar em “Testar”.
Essa ferramenta permite que você teste o endereço de diferentes páginas e arquivos para validar se o Googlebot terá acesso, ou não, a eles.
Se, após o teste, você visualizar a informação “Permitido”, é sinal de que o robots.txt consegue acessar a URL indicada.
Caso veja a informação “Bloqueado”, a ferramenta indicará qual regra está bloqueando a leitura da URL indicada.
Importante: sempre faça o upload do robots.txt na raiz de seu site.

Conclusão
O robots.txt, quando configurado da melhor forma possível, é capaz de gerar mais resultados para o seu SEO e melhorar a experiência dos usuários.
Quando os robôs de busca chegarem ao seu site, saberão quais arquivos indexar, o que significa melhor visualização do seu site por parte de quem faz uma pesquisa.
Ao utilizar o robots.txt de forma correta, é possível tornar seu site mais visível e aperfeiçoar a experiência do usuário, criando um círculo virtuoso no qual o robots.txt garante que o fluxo seja direcionado a locais que tragam maiores oportunidades de conversão.