• Serviços
    • SEO 360º
    • Link Building 4.0
    • E-commerce SEO
    • Business Intelligence
    • Squad de SEO
    • Implementação de SEO
    • Data Driven PR
  • Cases
  • Estudos e Guias
  • Blog
  • Quem somos
  • Trabalhe Conosco
  • Imprensa
  • Curso de SEO
  • Academy
  • Contato
logo
lupa
  • Serviços
      • Soluções
      • SEO 360º
      • E-commerce SEO
      • Implementação de SEO
      • Business Intelligence
      • SEO Off-Page
      • Link Building 4.0
      • Data Driven PR
      • Enterprise
      • Squad de SEO
  • Cases
  • Estudos e Guias
  • Blog
  • Empresa
    • Quem somos
    • Trabalhe conosco
    • Imprensa
    • icone conversion academyCurso de SEO
    • icone conversion academyAcademy
Agendar Reunião
lupa seta
Geral
Voltar

Robots.txt: entenda de uma vez por todas e aprenda a usar esse importante recurso de SEO técnico

Lucas Ivo

30/07/2020
6 min de leitura

Sumário

  1. O que é robots.txt
  2. Para que serve o arquivo robots.txt?
  3. Por que o robots.txt é importante?
  4. Sintaxe do robots.txt
  5. Como criar e testar o seu arquivo robots.txt
  6. Conclusão
Compartilhe

O robots.txt é um arquivo em seu site que indica aos crawlers, ou seja, aos robôs dos mecanismos de busca, quais páginas ele pode ler e indexar com o intuito de exibi-las nos resultados de pesquisa de buscadores (como o Google). 

Hoje, trataremos sobre robots.txt, para que serve, por que é tão importante, como é a sintaxe do robots.txt, como criar (e testar) robots.txt, entre outras questões.

O robots.txt é um grande aliado do SEO do seu site, ajudando na correta indexação do conteúdo de forma otimizada. Saiba tudo sobre o assunto a seguir.

O que é robots.txt

Trata-se de um arquivo que fica salvo na pasta raiz de um site e indica aos robôs de busca (como Google, Bing, entre outros) quais páginas devem, ou não, ser indexadas no banco de dados dos buscadores.

No caso, o robots.txt utiliza um conjunto de comandos, chamado de Protocolo de Exclusão de Robôs, que é aplicado aos robôs de busca para que saibam quais páginas não devem ser acessadas.

O arquivo, salvo na pasta raiz do site, é simples de ser acessado, bastando digitar o endereço do site em um navegador, seguido pelo nome de arquivo “/robots.txt”.

Para que serve o arquivo robots.txt?

Resumidamente, o robots.txt serve para ordenar o que pode e o que não pode ser visto pelos robôs de busca. Entenda melhor, a seguir, o conceito a partir de algumas funções especificadas.

Controlar o acesso a determinadas páginas da web

Um site é composto por páginas da web, e o robots.txt, além de proibir que robôs de busca, como o Googlebot, acessem determinadas páginas (que possam conter dados restritos ou informações irrelevantes para sua estratégia), também ajuda a evitar a sobrecarga de acessos dos robôs de busca no servidor que hospeda o site.

Importante: ainda que os robôs de busca não possam acessar determinadas páginas, nada impedirá que o próprio usuário o faça caso tenha o link de acesso direto.

Controlar o acesso a determinadas imagens

O robots.txt, além de restringir o acesso do robô a determinadas páginas, também impede que arquivos de imagem do seu site sejam exibidos em resultados de pesquisas.

Isso é muito eficaz caso haja necessidade de manter informações seguras e com restrições de acesso.

Pode ajudar, também, como forma de estratégia, já que o usuário será obrigado a entrar na página para visualizar a imagem, o que tende a ser interessante para algumas empresas.

Bloquear acessos a arquivos de recursos

Além de restringir o acesso a páginas e imagens, o robots.txt também bloqueia o acesso a arquivos menos importantes, ou de script, o que ajuda a poupar servidores.

Mesmo se tratando de arquivos de menor importância, é preciso ter cautela ao utilizar essa função do robots.txt, principalmente ao lidar com arquivos indispensáveis ao carregamento da página, já que, ao dificultar o trabalho dos robôs rastreadores, como o crawler, a página como um todo pode ser prejudicada.

Como evitar a indexação de determinadas páginas do site

Como dito, o robots.txt pode ser usado para evitar o acesso e, consequentemente, a indexação de determinadas páginas ou arquivos de um website.

No caso, um exemplo simples de robots.txt que pode impedir a indexação do site como um todo por ferramentas de busca seria:

User-agent: *

Disallow: /

Já um exemplo que serviria para impedir a indexação de uma determinada pasta poderia ser:

User-agent: *

Disallow: /cgi-bin/ 

Página que evita-se indexar, print de página de log in do wordpress
Exemplo de página que, geralmente, evita-se indexar

Por que o robots.txt é importante?

Entre as principais razões que tornam o robots.txt importante, é possível destacar:

Evita o rastreamento de algumas páginas

É normal que um site conte com páginas de uso interno, uma área de login ou uma página ainda em desenvolvimento.

Todos esses locais costumam utilizar robots.txt para impedir o rastreamento de robôs. 

Além das páginas propriamente ditas, o acesso a arquivos, imagens e até recursos pode ficar restrito.

Para quem investe em SEO, trata-se de uma ótima ferramenta, já que a ideia é atrair os potenciais leads a uma página específica, como uma landing page, e não ao material final, por exemplo.

Indica os seus sitemaps

Essa é uma funcionalidade considerada muito simples, mas que ajuda buscadores, como Google e Bing, a encontrarem seus sitemaps e, dessa forma, compreenderem melhor a organização do seu site.

O tempo de rastreio dos robôs no seu site é limitado

É importante saber que o Google já se posicionou com relação ao “Crawl Budget”, seu limite de rastreamento.

Para quem não sabe, na prática, isso significa que, ao não utilizar o robots.txt para ordenar ao Google quais páginas não deve rastrear, ele poderá perder muito mais tempo rastreando páginas que não interessam, e deixando de rastrear aquelas que você quer que apareçam nos resultados de pesquisas.

Se o crawler do Google tiver dificuldades durante o rastreamento e indexação do site, pode ser que o problema seja o limite imposto pelo Crawl Budget. 

Nesse sentido, restringir o rastreio de determinadas páginas resolve o problema.

Sintaxe do robots.txt

O robots.txt tem como objetivo criar um protocolo de acesso aos robôs de busca. 

Para que consiga executar plenamente essa designação, há expressões específicas, ou seja, expressões com o intuito de passar um comando que permita, ou não, o acesso a determinados locais ou páginas. 

Os principais comandos dentro da sintaxe do robots.txt são:

User-agent

É possível aplicar orientações específicas para cada tipo de robô de busca presente na rede. 

Para isso, é preciso utilizar o comando User-agent e determinar o robô ao qual você está se referindo.

O principal robô de busca do Google, por exemplo, é o Googlebot. Sabendo disso, para dar uma ordem a ele, é preciso utilizar o seguinte comando: 

User-agent: Googlebot

Ou seja, basta indicar o nome do User-agent.

Disallow e Allow

Disallow

O comando diz respeito aos locais e páginas que não devem ser indexados em sites de buscas. 

Exemplos podem ser:

Disallow: /prod/ – orienta aos robôs de busca não indexar o conteúdo dentro da pasta “prod”;

Disallow: print1.html – orienta aos robôs de busca não indexar o conteúdo da página print1.html.

Allow

O comando Allow, por outro lado, orienta os robôs com relação às páginas e a outros locais que podem ter seus conteúdos indexados, ou seja, páginas que serão permitidas.

É importante notar que o comando deve ser utilizado em situações apenas quando o acesso a um local foi bloqueado por um comando de Disallow, mas a intenção era ter indexado um arquivo dentro da página bloqueada.

O Allow permite que o diretório seja indexado da seguinte forma:

Allow: /catalogs/about

Outro exemplo: se for preciso bloquear uma pasta (‘arquivos’), mas manter o acesso de diretórios (‘projetos’), o comando ficaria:

Disallow: /arquivos/

Allow: /arquivos/projetos/

Sitemap

Outro comando muito importante do robots.txt é a indicação do sitemap do site, arquivo muito útil para ajudar robôs de rastreamento a localizarem todas as páginas existentes.

Ainda que seja de grande usabilidade, o comando sitemap tem caído em desuso, e isso se deve ao Google Webmaster Tools, uma ferramenta que permite identificar o local do seu arquivo sitemap de forma mais prática.

Exemplo:
sitemap: https://www.conversion.com.br/sitemap_index.xml

Como criar e testar o seu arquivo robots.txt

É possível criar um arquivo robots.txt usando um simples editor de texto, e apenas isso, de acordo com a sua preferência.

Após conhecer bem a sintaxe de um arquivo robots.txt, inicie configurando o User-agent, de forma que possa se aplicar a todos os robôs de busca, para isso, coloque um asterisco após o termo;

O próximo passo é digitar “Disallow” (e nada mais);

Uma vez que não haverá nada após “Disallow”, os robôs de busca irão rastrear todo o site (sem impedimentos).

Esse passo a passo pode ser considerado o básico de robots.txt. 

Lembrando que ele também pode ser adaptado de acordo com o SEO técnico para otimizar a indexação de suas páginas.

Como testar

É fundamental testar o arquivo robots.txt para se ter certeza de que está tudo devidamente funcionando. 

Hoje, o Google conta com uma ferramenta gratuita de teste, dentro da plataforma Search Console.

Dessa forma, é preciso acessar a ferramenta de teste de robots.txt, selecionar o site associado à conta do Google Search Console que deseja testar e, em seguida, clicar em “Testar”.

Essa ferramenta permite que você teste o endereço de diferentes páginas e arquivos para validar se o Googlebot terá acesso, ou não, a eles.

Se, após o teste, você visualizar a informação “Permitido”, é sinal de que o robots.txt consegue acessar a URL indicada. 

Caso veja a informação “Bloqueado”, a ferramenta indicará qual regra está bloqueando a leitura da URL indicada. 

Importante: sempre faça o upload do robots.txt na raiz de seu site.

Ferramenta robots.txt google search console
Exemplo da ferramenta de teste de robots.txt do Google Search Console

Conclusão

O robots.txt, quando configurado da melhor forma possível, é capaz de gerar mais resultados para o seu SEO e melhorar a experiência dos usuários.

Quando os robôs de busca chegarem ao seu site, saberão quais arquivos indexar, o que significa melhor visualização do seu site por parte de quem faz uma pesquisa.

Ao utilizar o robots.txt de forma correta, é possível tornar seu site mais visível e aperfeiçoar a experiência do usuário, criando um círculo virtuoso no qual o robots.txt garante que o fluxo seja direcionado a locais que tragam maiores oportunidades de conversão.

Compartilhe nas redes:
  • Facebook
  • LinkedIn
  • Twitter
  • Whatsapp
Escrito por

Lucas Ivo

Head de SEO

Lucas Ivo é sócio, head de SEO e consultor de projetos especiais de SEO na Conversion. Com mais de 5 anos de experiência em SEO, participou de grandes cases de SEO como Growth Supplements, ViajaNet, iFood, ShopFácil.com, Gran Cursos, Whirlpool e Estadão. Também participou ativamente de grandes inovações no produto de SEO, sempre com foco em gerar resultado para o cliente.

Receba o melhor conteúdo de marketing em seu e-mail

Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado

Conteúdos relacionados

Pesquisa: 82% dos profissionais que investem em link building vêem resultados positivos

O dia em que o dono da Amazon fez SEO

Conversion lança novo serviço: Link Building para empresas que já investem em SEO

O futuro das relações de trabalho é agora: entenda como o Covid-19 revolucionou o trabalho no Brasil e no mundo

"A inovação distingue um líder de um seguidor"

Steve Jobs
logo

Faça sua marca ser mais buscada

Serviços
  • SEO
  • E-commerce SEO
  • Squad
  • Link Building 4.0
  • Business Intelligence
  • Tecnologia
Institucional
  • Serviços
    seta
      • Soluções
      • SEO 360º
      • E-commerce SEO
      • Implementação de SEO
      • Business Intelligence
      • Seo On Page
      • Link Building 4.0
      • Data Driven PR
      • Enterprise
      • Squad de SEO
  • Cases
  • Blog
  • Quem somos
  • Trabalhe conosco
  • Imprensa
  • Empresa
    seta
    • icone seoQuem somos
    • icone jornalTrabalhe conosco
    • icone performanceImprensa
  • Fale Conosco

Plataformas Homologadas

Certificações

totemAv. Paulista 171, 4º andar - CEP 01311-000 - Bela Vista São Paulo SP
telefone(11) 4858-0444
email[email protected]
instagram linkedin facebook
© 2011-2022 Conversion. Todos os direitos reservados. · Política de Privacidade · Política de Cookies ·

Estamos usando cookies para oferecer a melhor experiência em nosso site. Você pode descobrir mais sobre quais cookies estamos usando ou desativá-los nas configuraçoes.

Conversion
Visão geral da privacidade

Este site usa cookies para que possamos oferecer a melhor experiência possível ao usuário. As informações sobre cookies são armazenadas no seu navegador e desempenham funções como reconhecê-lo quando você retornar ao nosso site e ajudar nossa equipe a entender quais seções do site você acha mais interessantes e úteis.

Cookies estritamente necessários

Os Cookies Estritamente necessários devem estar ativado o tempo todo, para que possamos salvar suas preferências nas configurações de cookies.

Se você desativar este cookie, não poderemos salvar suas preferências. Isso significa que toda vez que você visitar este site, precisará ativar ou desativar os cookies novamente.