Robots.txt: guia completo para controle de rastreamento e SEO

Robots.txt é um arquivo de texto que orienta os robôs dos mecanismos de busca sobre quais páginas de um site devem ou não ser rastreadas.

Robots.txt é um arquivo de texto que estabelece diretrizes para os robôs dos mecanismos de busca, indicando quais áreas de um site podem ou não ser rastreadas. Parte do Protocolo de Exclusão de Robôs (REP), sua função é gerenciar o acesso dos crawlers de forma organizada, servindo como a primeira instrução que os bots recebem ao visitar um domínio.

Sua aplicação é fundamental para a otimização do orçamento de rastreamento (crawl budget), direcionando os robôs para o conteúdo mais relevante. Ao bloquear o acesso a páginas de login, resultados de busca interna ou áreas em desenvolvimento, o arquivo garante que os recursos dos buscadores sejam utilizados de forma eficiente, focando em páginas que devem ser indexadas.

A implementação correta do robots.txt depende de uma sintaxe precisa, utilizando comandos como User-agent, Disallow e Allow para criar regras claras. A validação, realizada por meio de ferramentas como o testador do Google Search Console, é um passo importante para evitar erros comuns, como o bloqueio acidental de recursos essenciais (CSS/JS) ou de páginas importantes para o negócio.

É necessário diferenciar o controle de rastreamento do robots.txt do controle de indexação, realizado pela meta tag robots. Embora não impeça a indexação diretamente, a gestão do rastreamento impacta a forma como o conteúdo é descoberto e, consequentemente, sua visibilidade nos resultados de busca, tornando o arquivo uma peça central na arquitetura técnica de um site.

O que é robots.txt?

O arquivo robots.txt é um documento de texto que instrui os robôs dos mecanismos de busca, também conhecidos como crawlers ou spiders, sobre quais páginas ou seções de um site eles podem ou não rastrear. Localizado na raiz do domínio, ele funciona como um guia para os bots, ajudando a gerenciar como o conteúdo do site é acessado e processado.

Este arquivo é um componente central do Protocolo de Exclusão de Robôs (REP), um padrão da web que estabelece como os robôs devem se comportar ao visitar sites. Embora sua principal função seja controlar o rastreamento, o robots.txt impacta indiretamente a indexação e é uma ferramenta para a otimização de SEO, especialmente na gestão do orçamento de rastreamento (crawl budget).

É importante entender que o robots.txt atua como uma sugestão, não como uma barreira de segurança. A maioria dos rastreadores legítimos, como o Googlebot, respeita suas diretrizes. No entanto, bots mal-intencionados podem ignorá-lo. Portanto, o arquivo não deve ser usado para proteger informações sensíveis.

Exemplo básico de robots.txt:

User-agent: *
Disallow: /admin/
Disallow: /carrinho/
Allow: /carrinho/publico/

Sitemap: https://www.seusite.com.br/sitemap.xml

Para que serve o robots.txt?

O principal propósito do robots.txt é gerenciar o acesso dos crawlers a áreas específicas de um site. Isso permite que os administradores do site evitem o rastreamento de páginas com conteúdo duplicado, irrelevante ou de acesso restrito, como áreas de login, páginas de checkout ou resultados de busca interna.

Ao impedir que os robôs acessem essas páginas, o robots.txt ajuda a otimizar o crawl budget. Em vez de gastar tempo e recursos em seções que não devem aparecer nos resultados de busca, os crawlers são direcionados para as páginas mais importantes, como novos produtos em um e-commerce ou artigos recém-publicados em um blog.

Exemplos práticos de uso:

  • E-commerce: bloquear URLs geradas por filtros de pesquisa (como cor, tamanho ou preço), que criam conteúdo duplicado
  • Blog: impedir o rastreamento de páginas de tags e categorias com pouco conteúdo
  • Sites corporativos: bloquear diretórios de administração ou áreas de teste

Como funciona o robots.txt?

Quando um mecanismo de busca como o Google decide rastrear um site, a primeira ação do seu robô, o Googlebot, é procurar por um arquivo robots.txt na raiz do domínio (ex: www.seusite.com.br/robots.txt). Se o arquivo for encontrado, o bot analisa suas regras para determinar quais partes do site pode acessar.

O processo segue uma ordem lógica:

  1. O robô primeiro verifica o robots.txt para saber se tem permissão para rastrear uma URL
  2. Se o acesso for permitido, ele rastreia a página
  3. Posteriormente, durante a fase de renderização e análise, o Google decide se a página será ou não indexada com base em outras diretivas, como a meta tag robots

É necessário distinguir entre bloqueio de rastreamento e bloqueio de indexação. O robots.txt impede o rastreamento, mas não garante que uma página não seja indexada. Se uma URL bloqueada no robots.txt receber links de outras páginas, ela ainda poderá ser indexada, embora sem que seu conteúdo seja lido pelo Google. Para evitar a indexação, a diretiva correta é a meta tag noindex.

Sintaxe e comandos principais do robots.txt

A sintaxe do robots.txt é baseada em diretivas. Cada regra é composta por um User-agent, que especifica o robô ao qual a regra se aplica, seguido por comandos como Disallow ou Allow.

Comandos principais:

User-agent: Define qual crawler deve seguir a regra. User-agent: * aplica-se a todos os robôs. Para direcionar a um bot específico, usa-se seu nome, como User-agent: Googlebot.

Disallow: Instrui o robô a não rastrear um diretório ou página. Por exemplo, Disallow: /privado/ bloqueia o acesso à pasta “privado” e a tudo que estiver dentro dela.

Allow: Permite o acesso a um arquivo ou subdiretório específico dentro de um diretório bloqueado. Se a pasta /privado/ está bloqueada, Allow: /privado/documento.pdf libera o acesso apenas a esse arquivo.

Sitemap: Embora não seja uma diretiva de controle de rastreamento, é comum incluir a localização do sitemap XML no final do arquivo (ex: Sitemap: https://www.seusite.com.br/sitemap.xml).

Wildcards:

Para regras mais granulares, são usados os wildcards:

  • * (asterisco): representa qualquer sequência de caracteres
  • $ (cifrão): indica o final de uma URL

Por exemplo, Disallow: /*.pdf$ bloqueia o rastreamento de todas as URLs que terminam com .pdf.

Como criar um arquivo robots.txt?

A criação de um arquivo robots.txt é um processo direto. Você precisa apenas de um editor de texto, como o Bloco de Notas no Windows ou o TextEdit no Mac. É importante não usar processadores de texto como o Microsoft Word, pois eles podem adicionar formatação indesejada que invalida o arquivo.

Estrutura básica:

Se você deseja permitir que todos os robôs rastreiem todo o seu site, o arquivo pode conter as seguintes linhas:

User-agent: *
Disallow:

Para bloquear o acesso a um diretório específico, adicione a regra Disallow:

User-agent: *
Disallow: /admin/

Processo de implementação:

  1. Crie o arquivo com as regras desejadas
  2. Salve-o com o nome robots.txt
  3. Envie o arquivo para o diretório raiz do seu site
  4. Torne-o acessível em www.seusite.com.br/robots.txt

Em plataformas como WordPress ou Shopify, existem plugins e seções específicas que permitem editar o robots.txt sem acesso direto ao servidor.

Como testar e validar o robots.txt?

Antes de implementar ou modificar um arquivo robots.txt, é essencial testá-lo para evitar erros que possam prejudicar o SEO do site. A principal ferramenta para isso é o testador de robots.txt do Google, disponível no Google Search Console.

Como usar o testador do Google:

  1. Acesse o Google Search Console
  2. Navegue até a seção “Configurações”
  3. Abra o testador de robots.txt
  4. Cole o conteúdo do seu arquivo
  5. Insira URLs do seu site para verificar se estão bloqueadas ou permitidas
  6. A ferramenta destacará erros de sintaxe e lógica

Outras formas de validação:

  • Verificação manual: tente acessar o arquivo diretamente no navegador (seusite.com.br/robots.txt)
  • Ferramentas de terceiros: oferecem análises mais detalhadas
  • Reteste: após corrigir problemas, repita o processo para garantir que as regras funcionam conforme esperado

Robots.txt vs meta robots: qual a diferença?

A principal diferença entre o robots.txt e a meta tag robots reside no que eles controlam:

  • Robots.txt: gerencia o rastreamento, dizendo aos bots quais páginas eles podem ou não visitar
  • Meta tag robots: controla a indexação, instruindo os buscadores se devem ou não incluir aquela página em seus resultados de busca

Quando usar cada um:

Use robots.txt para:

  • Impedir o acesso a seções inteiras de um site (áreas de administração)
  • Otimizar o crawl budget, evitando o rastreamento de páginas de baixa relevância

Use meta tag robots com a diretiva noindex (<meta name="robots" content="noindex">) quando:

  • Você quer permitir o rastreamento de uma página, mas não sua exibição nos resultados de busca

Combinação das técnicas:

Para garantir que uma página não seja indexada, o ideal é usar a meta tag noindex e permitir o seu rastreamento no robots.txt. Isso garante que o Googlebot possa visitar a página e ler a instrução noindex.

Erro comum: bloquear uma página com noindex no robots.txt é um erro, pois impede que o robô veja a diretiva de não indexação.

Erros comuns no robots.txt

Bloqueio acidental de recursos CSS e JavaScript

Um dos erros mais comuns é bloquear arquivos CSS e JavaScript. Se o Googlebot não consegue acessar esses recursos, ele não renderiza a página corretamente, o que pode levar a uma interpretação equivocada do conteúdo e impactar negativamente o ranking.

Uso incorreto de wildcards

Uma regra como Disallow: /uploads* pode, sem querer, bloquear URLs importantes se não for bem planejada.

Problemas de sintaxe

Erros de digitação (como Disalow: em vez de Disallow:) invalidam as regras e podem fazer com que os robôs ignorem o arquivo.

Bloqueio de páginas importantes

Sempre verifique as regras antes de implementá-las para evitar bloquear páginas que deveriam ser indexadas.

Solução para erros:

  1. Corrigir a sintaxe no arquivo
  2. Testar a nova versão no Google Search Console
  3. Enviar o arquivo atualizado para o servidor
  4. Monitorar os resultados

Melhores práticas para robots.txt

Estrutura hierárquica clara

O robots.txt deve seguir uma estrutura hierárquica clara, com as regras organizadas de forma lógica. É recomendável agrupar as diretivas por User-agent, começando pelas mais gerais e seguindo para as mais específicas. Isso facilita a manutenção e a compreensão do arquivo.

Uso estratégico

Utilize o robots.txt de forma estratégica para guiar os rastreadores para o conteúdo mais valioso, otimizando o crawl budget. Bloqueie seções que não agregam valor aos resultados de busca, como:

  • Páginas de login
  • Filtros de pesquisa
  • Versões de impressão

Manutenção regular

É importante manter o arquivo atualizado, especialmente após mudanças na estrutura do site. Teste sempre qualquer alteração antes de publicá-la, usando a ferramenta de teste do Google Search Console.

Práticas específicas por tipo de site:

  • E-commerce: bloquear URLs de carrinho e checkout
  • Blogs: bloquear páginas de tags ou arquivos de datas

Robots.txt e SEO: impactos na indexação

Embora o robots.txt não seja uma ferramenta de controle de indexação, ele tem uma relação direta com a forma como um site é indexado. Ao gerenciar o que é rastreado, o arquivo influencia quais páginas o Googlebot descobre e processa.

Benefícios para SEO:

Otimização do crawl budget: ao impedir que os robôs gastem tempo em páginas de baixa prioridade, você garante que as páginas mais importantes sejam rastreadas com mais frequência. Isso é especialmente importante para sites grandes, com milhares de URLs.

Descoberta acelerada: um robots.txt bem configurado pode acelerar a descoberta de conteúdo novo e relevante.

Melhor compreensão da estrutura: um arquivo bem otimizado ajuda o Google a entender melhor a estrutura do site, o que pode contribuir para uma melhor performance orgânica.

Impactos negativos de uma configuração incorreta:

Um bloqueio incorreto pode impedir que páginas importantes sejam rastreadas e, consequentemente, indexadas, fazendo-as desaparecer dos resultados de busca.

Monitoramento:

Monitore métricas como a frequência de rastreamento no Google Search Console para avaliar o impacto das suas configurações.

Perguntas frequentes sobre robots.txt

Em nossa experiência, estas são as perguntas mais comuns:

É possível bloquear apenas um buscador específico?

Sim. Para isso, basta especificar o User-agent do buscador que você deseja bloquear. Por exemplo, para impedir o acesso do Bing, você usaria User-agent: Bingbot seguido da diretiva Disallow.

O robots.txt impede completamente o acesso às páginas?

Não. O robots.txt é uma diretiva, não uma barreira de segurança. Robôs de buscadores legítimos geralmente respeitam as regras, mas bots mal-intencionados podem ignorá-las. Para proteger conteúdo sensível, utilize métodos de autenticação no servidor.

Como funciona a prioridade entre Allow e Disallow?

Para o Googlebot, a regra mais específica prevalece. Por exemplo, se você tem uma regra Disallow: /pasta/ e uma Allow: /pasta/arquivo.html, o Googlebot não rastreará o diretório /pasta/, mas poderá acessar arquivo.html porque a regra Allow é mais longa e específica.

Posso ter múltiplos arquivos robots.txt?

Não. Um site só pode ter um arquivo robots.txt, e ele deve estar localizado no diretório raiz do domínio. Ter arquivos em subdiretórios não tem efeito.

O que fazer se o arquivo robots.txt não funcionar?

Verifique:

  • A localização do arquivo (deve estar na raiz)
  • A sintaxe (use um validador)
  • As permissões do servidor
  • Se o nome do arquivo está em letras minúsculas (robots.txt)

Robots.txt afeta imagens e vídeos?

Sim. As regras do robots.txt se aplicam a todos os tipos de arquivos, incluindo imagens, vídeos, PDFs e outros documentos. Se você bloquear o diretório onde as imagens estão armazenadas, elas não serão rastreadas e não aparecerão no Google Imagens.

Como bloquear apenas partes específicas de uma página?

O robots.txt não permite bloquear partes de uma página, pois ele funciona no nível de URL. Para impedir que trechos específicos de uma página sejam exibidos nos resultados de busca, você pode usar a tag data-nosnippet no HTML.

Vale a pena usar robots.txt para sites pequenos?

Sim. Mesmo em sites pequenos, o robots.txt é útil para evitar o rastreamento de áreas de administração ou páginas de teste. Embora o crawl budget não seja uma preocupação tão grande, é uma boa prática de organização e controle.

Foto de Escrito por Mariana Pessoa

Escrito por Mariana Pessoa

Mariana é estrategista de SEO e apaixonada por Marketing Digital. É também produtora de conteúdo no LinkedIn e escritora de ficção nas horas vagas.

guest

0 Comentários
Inline Feedbacks
View all comments
Foto de Escrito por Mariana Pessoa

Escrito por Mariana Pessoa

Mariana é estrategista de SEO e apaixonada por Marketing Digital. É também produtora de conteúdo no LinkedIn e escritora de ficção nas horas vagas.

Compartilhe este conteúdo

Insira sua palavra-chave e URL para melhorar seu SEO

🔥 Não requer cadastro

Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.