Entendendo o robots.txt: o que é, como funciona e como usar corretamente

Mariana Pessoa
Mariana Pessoa

Robots.txt é um arquivo em seu site que indica aos mecanismos de busca quais páginas podem ser acessadas dentro de um site.

O que é o robots.txt?

O Robots.txt é um arquivo de texto simples que fica na raiz do seu servidor web. Ele orienta os rastreadores dos mecanismos de busca sobre quais páginas ou seções do seu site eles podem ou não acessar.

Ao utilizar esse arquivo, webmasters podem controlar o acesso dos web crawlers, o que impacta diretamente na indexação do site nos buscadores. Esse controle é fundamental para uma estratégia eficiente de SEO, pois ajuda a evitar que conteúdos não desejados sejam exibidos em resultados de pesquisa.

Ele funciona como um guia para os bots, especificando quais partes do site devem ser rastreadas e quais devem ficar ocultas. Isso permite um gerenciamento eficaz do tráfego de rastreadores, garantindo que páginas importantes sejam priorizadas e as irrelevantes ou duplicadas não consumam recursos valiosos.

É importante pontuar que o arquivo não funciona como um mecanismo para manter uma página da Web fora dos resultados da pesquisa do Google. Nesses casos, bloqueia a indexação com o noindex ou proteja com uma senha.

Para isso, o robots.txt utiliza um conjunto de comandos, chamado de Protocolo de Exclusão de Robôs. O arquivo é constítuido por uma ou mais regras, que é aplicado aos crawlers para que saibam quais páginas devem ou não ser acessadas. 

Ou seja, se tiver alguma página no seu site que você não gostaria que fosse acessada por robôs, é preciso especificar no robots.txt. Caso contrário, o rastreamento de todos os arquivos é permitido de forma implícita.

Confira um exemplo de robots.txt criado pelo Google:

Para que serve o robots.txt?

O arquivo Robots.txt é fundamental para gerenciar como os rastreadores dos mecanismos de busca interagem com o seu site, permitindo que você defina quais áreas podem ou não ser acessadas e indexadas.

Ao utilizar este arquivo com eficácia, você assegura que apenas o conteúdo relevante seja considerado, influenciando diretamente na performance do seu website nos resultados de busca.

Controla o acesso a arquivos de imagem

Com o arquivo robots.txt, você pode evitar que robôs de busca acessem e indexem certas imagens do seu site. Se deseja proteger suas fotos e gráficos exclusivos, a diretiva disallow, presente no robots.txt, pode ser configurada para bloquear rastreadores específicos ou todos eles.

Essa é uma maneira eficaz de controlar quais imagens serão exibidas nos resultados dos motores de busca.

Muitos webmasters usam essa configuração para gerenciar a presença online das suas imagens. Se há fotos de produtos ou conteúdo visual que você prefere não compartilhar amplamente, a edição do arquivo é essencial.

Basta adicionar as instruções corretas ao texto para que os buscadores saibam quais arquivos de imagem devem ficar fora da indexação e da visibilidade pública. 

Controla o acesso às páginas da web

O arquivo robots.txt permite que webmasters direcionem os rastreadores de mecanismos de busca, especificando quais páginas do site podem ou não ser processadas. Utilizando as diretivas de busca, você decide quais seções do seu servidor web devem ser acessíveis para indexação.

Isso ajuda a proteger conteúdos privados e a otimizar a visibilidade das páginas que você deseja destacar. Páginas com informações sensíveis ou que não contribuem para o SEO podem ser facilmente escondidas dos web crawlers.

Dessa maneira, o gerenciamento de rastreadores se torna uma ferramenta estratégica na melhoria da pesquisa e navegação do site. Direcionando os robôs corretamente, o site pode ganhar em eficiência e relevância nas pesquisas online.

Bloquear acessos a arquivos de recursos

Bloquear acessos a certos arquivos pode ser essencial para a segurança do seu site. Imagine ter arquivos de configuração importantes ou dados privados que não devem estar visíveis para todos na internet.

Com um arquivo robots.txt configurado corretamente, você orienta os web crawlers a ignorarem esses arquivos. Assim, é possível manter segredos comerciais, informações sensíveis e conteúdo exclusivo protegidos de olhares indesejados.

Utilizando o comando disallow no arquivo robots.txt, qualquer webmaster cria barreiras para que rastreadores não indexem certas partes do site. Essa prática ajuda a manter o controle sobre o que deve ser público e o que precisa permanecer privado.

Por que os robots.txt é importante para SEO?

Entre as principais razões que tornam o robots.txt importante, é possível destacar:

Evita o rastreamento de algumas páginas

É normal que um site conte com páginas de uso interno, como uma área de login ou página ainda em desenvolvimento.

Todos esses locais costumam utilizar robots.txt para impedir o rastreamento de robôs, o que impedir a indexação entre os resultados no Google.

Além das páginas propriamente ditas, o acesso a arquivos, imagens e até recursos pode ficar restrito.

É uma ótima ferramenta para uma estratégia de SEO, já que a ideia é atrair os potenciais leads a uma página específica, como uma landing page, e não ao material final. Assim, usando isso como exemplo, é possível direcionar o tráfego para a landing page e bloquear o acesso dos robôs ao material, garantindo que o usuário fará o cadastro na página.

Indica o seu sitemap

Essa é uma funcionalidade considerada muito simples, mas que ajuda buscadores, como Google e Bing, a encontrarem seus sitemaps e, dessa forma, compreenderem melhor a organização do seu site.

Isso porque, dentro do arquivo do robots.txt, é comum adicionar a URL de onde está localizado o sitemap.

O tempo de rastreio dos robôs no seu site é limitado

O Google já se posicionou com relação ao Crawl Budget, seu limite de rastreamento.

Para quem não sabe, na prática, isso significa que ao não utilizar o robots.txt para ordenar ao Google quais páginas não rastrear, ele poderá perder muito mais tempo rastreando páginas que não interessam, e deixando de rastrear aquelas que você quer que apareçam nos resultados de pesquisas.

Se o crawler do Google tiver dificuldades durante o rastreamento e indexação do site, pode ser que o problema seja o limite imposto pelo Crawl Budget. Nesse sentido, restringir o rastreio de determinadas páginas pode resolver o problema.

Quais são os indicadores de sintaxe do robots.txt?

O robots.txt tem como objetivo criar um protocolo de acesso aos robôs de busca. 

Para que consiga executar plenamente essa designação, há expressões específicas, ou seja, expressões com o intuito de passar um comando que permita, ou não, o acesso a determinados locais ou páginas. 

Os principais comandos dentro da sintaxe do robots.txt são:

User-agent

O user-agent é o comando onde vai o nome do rastreador, também conhecido como robô ou crawler, de cada mecanismo de busca. É obrigatório o uso de um ou mais user-agent no arquivo do robots.txt.

Dessa forma, é possível aplicar orientações específicas para cada tipo de rastreador de busca presente na Web. Basta utilizar o comando user-agent e determinar o robô ao qual você está se referindo.

O principal robô de busca do Google é o Googlebot. Sabendo disso, para dar uma ordem a ele, é preciso utilizar o seguinte comando: 

User-agent: Googlebot

Ao usar o caractere * no user-agent, significa que todos os crawlers estão bloqueados, excetos os AdsBot.

Disallow

O comando disallow diz respeito aos locais e páginas que não devem ser acessados pelos rastreadores.

Confira os exemplos:

  • Disallow: /prod/ – orienta aos robôs de busca não rastrearem o conteúdo dentro da pasta “prod”;
  • Disallow: print1.html – orienta aos robôs de busca não rastrearem o conteúdo da página print1.html.

Allow

O comando allow, por outro lado, orienta os robôs com relação às páginas e a outros locais que podem ter seus conteúdos acessados, ou seja, páginas que são permitidas.

Vale sinalizar que o comando deve ser utilizado em situações em que o acesso a um local foi bloqueado por um comando de Disallow, mas você quer permitir o rastreamento de um subdiretório ou de uma página em um diretório proibido aos robôs.

O allow permite que o diretório seja indexado da seguinte forma:

  • Allow: /catalogs/about
  • Se for preciso bloquear uma pasta (‘arquivos’), mas manter o acesso de diretórios (‘projetos’), o comando ficaria:
    • Disallow: /arquivos/
    • Allow: /arquivos/projetos/

Sitemap

Outro comando muito importante do robots.txt é a indicação do sitemap do site, que é um arquivo essencial para ajudar robôs a localizarem todas as páginas existentes do site.

Exemplo de sitemap:

Como evitar a indexação de determinadas páginas do site?

O robots.txt pode ser usado para evitar o acesso dos rastreadores a uma página, o que consequentemente pode afetar a indexação de determinadas da mesma na Web.

No entanto, se o seu objetivo for bloquear uma página de ser indexada, o robots.txt não é o melhor caminho. Nas diretrizes sobre o uso do arquivo do Google, eles sinalizam que caso outras páginas redirecionarem o usuário para a página bloqueada, ela poderá ser indexada mesmo sem o robô acessá-la.

E isso pode ser bastante negativo, pois como crawler não terá acessado a página, ela não terá uma descrição na página de resultados.

Por outro lado, se o seu objetivo for apenas bloquear os rastreadores de encontrarem e acessarem sua página, é possível fazer da seguinte maneira:

  • User-agent: *
  • Disallow: /

Já um exemplo que serviria para impedir o rastreamento de uma determinada pasta poderia ser:

  • User-agent: *
  • Disallow: /cgi-bin/ 

Exemplo de página que, geralmente, evita-se permitir o rastreamento.

Como criar e testar o seu arquivo robots.txt?

É possível criar um arquivo robots.txt usando um simples editor de texto. Mas antes lembre-se: a regra é permitir o acesso a todas as páginas. Assim, crie o robots.txt com base no que os rastreadores não devem acessar.

Crie um arquivo chamado robots.txt

O primeiro passo é criar o arquivo. Pode utilizar o editor de texto de sua preferência, o Google só não recomenda processadores de textos para que não sejam adicionados caracteres inesperados. Ao salvar o arquivo, certifique-se que ele esteja com a codificação UTF-8 caso seja solicitado.

Não esqueça de salvar o nome do arquivo como robots.txt!

Configure seu user-agent

Após conhecer bem a sintaxe de um arquivo robots.txt, inicie configurando o User-agent. Para bloquear o acesso de todos os robôs, use o asteristico (*). 

Adicione o seu disallow

O próximo passo é digitar “Disallow” e nada mais.

Se não houver nada após “Disallow”, os robôs irão rastrear todo o site sem impedimentos.

Teste o seu arquivo

É fundamental testar o arquivo robots.txt para ter certeza de que está tudo devidamente funcionando. 

Para isso, o Google conta com uma ferramenta gratuita de teste que está disponível dentro do Search Console.

Dessa forma, é preciso acessar a ferramenta de teste de robots.txt, selecionar o site associado à conta do Google Search Console que deseja testar e, em seguida, clicar em “Testar”.

Essa ferramenta permite que você teste o endereço de diferentes páginas e arquivos para validar se o Googlebot terá acesso ou não a eles.

Se, após o teste, você visualizar a informação “Permitido”, é sinal de que o robots.txt consegue acessar a URL indicada. 

Caso veja a informação “Bloqueado”, a ferramenta indicará qual regra está bloqueando a leitura da URL indicada. 

Exemplo da ferramenta de teste de robots.txt do Google Search Console

Envie o arquivo para o Google

Por último, faça upload do robots.txt através da ferramenta indicada acima. Caso utilize CMS, como WordPress ou Wix, confira como fazer dentro das plataformas, pois talvez não sejapossível alterar o arquivo manualmente.

Importante: sempre faça o upload do robots.txt na raiz de seu site.

Limitações de um arquivo Robots. txt

Apesar de ser uma poderosa ferramenta para gerenciar a forma como os rastreadores interagem com seu site, o arquivo Robots.txt possui algumas limitações que necessitam de atenção para garantir a eficácia desejada.

Continue lendo para descobrir como essas limitações podem impactar a visibilidade do seu site nos mecanismos de busca e como navegar por elas.

As instruções do arquivo Robots.txt são apenas diretivas

O arquivo robots.txt comunica com os web crawlers usando um conjunto de regras, mas essas regras não têm autonomia. Pense nelas como sugestões que a maioria dos motores de busca optam por seguir.

Contudo, é possível que alguns bots menos respeitáveis ignorem essas instruções, acessando partes do site que você preferiria manter privadas. Isso significa que o Robots.txt é eficaz para guiar os robôs éticos sobre como interagir com seu site, mas não pode garantir 100% a privacidade ou segurança das informações.

Além disso, o uso do arquivo robots.txt deve ser estratégico e pensado com cuidado para não bloquear conteúdo importante acidentalmente. Um erro no arquivo pode impedir que os rastreadores de mecanismos de busca indexem páginas do site que são essenciais para sua visibilidade on-line.

Por isso, é essencial entender a sintaxe e as implicações de cada comando inserido nesse arquivo de controle. As instruções corretas ajudam a otimizar o rastreamento e a indexação das páginas adequadas pelos buscadores, em linha com os objetivos de SEO e gestão do site.

Cada robô de busca pode interpretar a sintaxe de maneiras diferentes

Robôs de diferentes buscadores seguem suas próprias regras quando leem um arquivo robots.txt. Isso significa que a forma como o Googlebot interpreta as instruções pode não ser a mesma que o Bingbot ou outros rastreadores.

Webmasters devem testar suas diretivas para garantir que elas funcionem em diversos mecanismos de busca e não somente em um. Os comandos precisam ser claros e objetivos para evitar confusões que podem levar a uma indexação indesejada de páginas.

A criação de regras eficazes no robots.txt exige conhecimento sobre como diferentes web crawlers operam. Mesmo instruções simples podem ser entendidas de maneira errada, dependendo do rastreador.

Isso impacta diretamente a visibilidade e a otimização do site, pois páginas importantes podem deixar de ser indexadas, enquanto conteúdos que deveriam ser ocultos podem aparecer nos resultados de busca.

Os direcionamentos do Robots.txt não impedem que outros sites façam referências a suas URLs

Enquanto as regras do robots.txt podem variar entre diferentes rastreadores, uma coisa é clara: o arquivo não tem controle sobre a ação de terceiros em relação ao seu site. Isso significa que mesmo que você use o comando disallow para impedir que bots indexem certas páginas, outros sites podem, livremente, linkar para essas URLs.

Eles têm autonomia para referenciar qualquer parte do seu conteúdo na web, independentemente das suas diretivas de busca.

Esse aspecto é crucial para entender como a web opera interconectada e o papel limitado do robots.txt nesse contexto. Proteger seu site não envolve apenas orientar os mecanismos de busca, mas também implementar outras medidas de segurança e privacidade.

Assim, é sempre bom estar atento e considerar camadas adicionais de proteção para informações mais sensíveis ou páginas que você prefere manter sob maior controle.

Conclusão

O robots.txt, quando configurado da melhor forma possível, é capaz de gerar mais resultados para o seu SEO e melhorar a experiência dos usuários.

Quando os robôs de busca chegarem ao seu site, saberão quais arquivos indexar, o que significa melhor visualização do seu site por parte de quem faz uma pesquisa.

Ao utilizar o robots.txt de forma correta, é possível tornar seu site mais visível e aperfeiçoar a experiência do usuário, criando um círculo virtuoso no qual o arquivo garante que o fluxo seja direcionado a locais que tragam maiores oportunidades de conversão.

Escrito por Mariana Pessoa

Escrito por Mariana Pessoa

Mariana é estrategista de SEO e apaixonada por Marketing Digital. É também produtora de conteúdo no LinkedIn e escritora de ficção nas horas vagas.

guest

0 Comentários
Inline Feedbacks
View all comments
Escrito por Mariana Pessoa

Escrito por Mariana Pessoa

Mariana é estrategista de SEO e apaixonada por Marketing Digital. É também produtora de conteúdo no LinkedIn e escritora de ficção nas horas vagas.

Compartilhe este conteúdo
Compartilhe
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.