79% dos sites de notícias bloqueiam bots de treinamento de inteligência artificial

Estudo BuzzStream revela que 79% dos 100 principais sites de notícias bloqueiam bots de treinamento de IA e 71% bloqueiam bots de citação, impactando visibilidade em chatbots.

A BuzzStream analisou arquivos robots.txt de 100 sites de notícias líderes nos Estados Unidos e Reino Unido, revelando que 79% bloqueiam pelo menos um bot usado para treinamento de inteligência artificial. De forma mais significativa, 71% bloqueiam bots de retrieval utilizados para citações em respostas de chatbots, potencialmente prejudicando visibilidade em ferramentas de IA.

O estudo, divulgado, examinou os 50 principais sites de notícias americanos e britânicos por tráfego segundo SimilarWeb. A pesquisa identificou padrões de bloqueio para crawlers específicos de OpenAI (GPTBot, OAI-SearchBot), Anthropic (Claude-Web), Perplexity (PerplexityBot) e outros players de IA generativa.

A distinção entre bots de treinamento e retrieval é crítica. Bots de treinamento coletam dados para construir modelos de linguagem, enquanto bots de retrieval acessam conteúdo em tempo real para citar fontes em respostas. Bloquear apenas treinamento protege propriedade intelectual; bloquear retrieval reduz visibilidade em respostas de chatbots.

Taxas de bloqueio por bot específico

O PerplexityBot, usado pela Perplexity para indexar páginas, é bloqueado por 67% dos sites analisados. A taxa elevada reflete controvérsias sobre práticas de crawling da Perplexity, incluindo acusações de ignorar diretivas robots.txt através de IPs rotativos e user agents mascarados.

O Claude-Web da Anthropic registra 66% de bloqueio, taxa praticamente idêntica ao PerplexityBot. O crawler alimenta citações do chatbot Claude, e publishers demonstram relutância similar em permitir acesso mesmo para funcionalidade de atribuição de fontes.

O OAI-SearchBot da OpenAI, que alimenta busca ao vivo do ChatGPT, é bloqueado por 49% dos sites. A taxa menor comparada a outros bots pode refletir reconhecimento de marca da OpenAI ou percepção de que ChatGPT gera tráfego de referência valioso quando cita fontes.

Motivações dos publishers para bloqueio

A ausência de troca de valor motiva decisões de bloqueio. Diferentemente de mecanismos de busca tradicionais que enviam tráfego através de links, modelos de linguagem sintetizam informações sem necessariamente direcionar usuários a fontes originais. Publishers perdem visitantes e receita publicitária potencial.

A proteção de propriedade intelectual representa preocupação fundamental. Conteúdo jornalístico demanda investimento em reportagem, apuração e edição. Permitir que IA treine em artigos sem compensação equivale a subsidiar concorrentes que monetizam conhecimento agregado sem custos de produção.

O posicionamento estratégico influencia políticas de bloqueio. Publishers que bloqueiam apenas bots de treinamento mas permitem retrieval aceitam citações como forma de visibilidade, similar a relacionamento com Google. Aqueles que bloqueiam ambos rejeitam IA generativa como canal legítimo de distribuição.

Diferenças entre publishers americanos e britânicos

Publishers americanos bloqueiam Google-Extended (bot de treinamento do Google) quase duas vezes mais que britânicos. A disparidade sugere sensibilidade maior a questões de propriedade intelectual nos EUA ou relações mais próximas entre publishers britânicos e Google.

O Google-Extended é o bot de treinamento menos bloqueado globalmente, com 46% de taxa de bloqueio. Publishers parecem estender tratamento preferencial ao Google, possivelmente por dependência de tráfego de busca orgânica ou esperança de compensação futura através de programas de parcerias.

Apenas 14% dos publishers bloqueiam todos os crawlers de IA identificados, enquanto 18% não bloqueiam nenhum. A maioria adota abordagem seletiva, permitindo alguns bots enquanto bloqueia outros, indicando avaliações caso-a-caso de riscos e benefícios por empresa de IA.

Limitações do robots.txt e violações documentadas

O robots.txt é diretiva, não barreira técnica. Bots podem ignorar instruções sem consequências técnicas imediatas. A efetividade depende de conformidade voluntária, e evidências sugerem que nem todos os crawlers respeitam exclusões declaradas.

A Cloudflare documentou que Perplexity usou comportamento furtivo para contornar robots.txt, rotacionando endereços IP, mudando ASNs e mascarando user agents para parecer navegadores convencionais. As práticas minaram confiança de publishers e motivaram bloqueios mais agressivos.

Mecanismos de enforcement legais são incipientes. A legislação sobre direitos autorais não contemplava claramente raspagem para treinamento de IA, e precedentes judiciais estão em formação. Publishers dependem primariamente de controles técnicos e negociações comerciais para proteção.

Impactos em visibilidade e SEO para IA

Bloquear bots de retrieval reduz probabilidade de citação em respostas de chatbots. Com 37% dos consumidores iniciando buscas em IA em vez de Google, invisibilidade em ferramentas como ChatGPT e Perplexity representa perda de canal de descoberta emergente.

A fragmentação de acesso complica estratégias de conteúdo. Sites que bloqueiam IA perdem visibilidade em chatbots mas mantêm posições em busca tradicional. Aqueles que permitem acesso ganham citações em IA mas arriscam canibalização de tráfego direto quando usuários obtêm respostas sem visitar fontes.

O trade-off entre proteção e visibilidade não tem solução óbvia. Publishers precisam avaliar valor de tráfego de referência potencial de IA versus preservação de propriedade intelectual e receita publicitária direta. A decisão ideal varia por modelo de negócio e estratégia de audiência.

Desenvolvimento de acordos comerciais

A OpenAI negocia licenciamentos com publishers selecionados. Acordos com Axel Springer, Associated Press e outros veículos concedem acesso a conteúdo em troca de compensação financeira e atribuição. O modelo estabelece precedente de que treinamento de IA em conteúdo jornalístico requer permissão e pagamento.

O Google lançou programa de parcerias para conteúdo de IA generativa. Publishers participantes recebem compensação por inclusão de artigos em respostas de AI Overviews e Gemini. A iniciativa reconhece necessidade de troca de valor além de mera citação sem tráfego.

A Perplexity introduziu programa de receita compartilhada em 2025, mas publishers relatam ganhos mínimos. A empresa gerou apenas US$ 20 mil em receita publicitária de US$ 34 milhões totais, limitando capacidade de compensar criadores de conteúdo adequadamente.

Evolução regulatória e perspectivas legais

Legislações sobre IA e direitos autorais estão em desenvolvimento. A União Europeia avança com AI Act que pode estabelecer requisitos de transparência e compensação para uso de conteúdo protegido. Estados Unidos considera propostas similares mas enfrenta debate sobre equilíbrio entre inovação e proteção autoral.

Processos judiciais testam limites de fair use. The New York Times processou OpenAI e Microsoft por violação de direitos autorais, caso ainda em andamento. Resultados estabelecerão precedentes sobre legalidade de treinamento de IA em conteúdo jornalístico sem licença.

Acordos comerciais voluntários podem prevenir imposições regulatórias. Se indústria de IA e publishers convergirem para modelos de licenciamento mutuamente aceitáveis, legisladores podem optar por framework mínimo. Falha em estabelecer compensação consensual aumenta probabilidade de regulação prescritiva.

Implicações para marcas e criadores além de notícias

A pesquisa focou publishers de notícias, mas princípios aplicam-se a blogs, sites corporativos e criadores de conteúdo. Qualquer site pode usar robots.txt para controlar acesso de crawlers de IA, ponderando visibilidade versus proteção.

Marcas que dependem de conteúdo como ativo de marketing enfrentam dilema similar. Permitir IA indexar guias, tutoriais e artigos aumenta probabilidade de citação em respostas, mas reduz tráfego direto quando usuários obtêm informações sem visitar site.

A estratégia ideal varia por objetivo de conteúdo. Conteúdo de topo de funil focado em descoberta beneficia-se de visibilidade em IA. Conteúdo de fundo de funil que direciona conversões deve ser protegido para garantir que usuários visitem propriedades próprias onde podem ser convertidos.

Foto de Escrito por Diego Ivo

Escrito por Diego Ivo

Diego é CEO da Conversion, agência Líder em SEO e especializada em Search. Possui mais de uma década de experiência no mercado digital e é um dos principais experts no Brasil em SEO.

guest

0 Comentários
Inline Feedbacks
View all comments
Foto de Escrito por Diego Ivo

Escrito por Diego Ivo

Diego é CEO da Conversion, agência Líder em SEO e especializada em Search. Possui mais de uma década de experiência no mercado digital e é um dos principais experts no Brasil em SEO.

Compartilhe este conteúdo

Curso de SEO

Gratuito e com certificado. Mais de 13.620 pessoas já participaram.
Preencha o formulário e assista agora!

Estamos processando sua inscrição. Aguarde...

Seus dados de acesso à sua Jornada no curso serão enviados no e-mail cadastrado.
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.