Estudo Stanford: 35% dos novos sites são gerados ou assistidos por IA

Pesquisa de Stanford, Imperial College e Internet Archive analisou snapshots da Wayback Machine entre 2022 e 2025 e identificou expansão acelerada de conteúdo gerado por IA

Pesquisadores de Stanford, Imperial College London e do Internet Archive divulgaram um estudo que identifica 35% dos novos sites publicados em meados de 2025 como gerados ou assistidos por inteligência artificial. O trabalho, intitulado “The Impact of AI-Generated Text on the Internet”, utilizou snapshots da Wayback Machine como base.

Os autores são Jonas Dolezal (Imperial College London), Sawood Alam e Mark Graham (Internet Archive) e Maty Bohacek (Stanford). A análise comparou páginas publicadas entre 2022 e 2025 e mediu a evolução do conteúdo gerado por modelos de linguagem após o lançamento público do ChatGPT.

O ponto de partida da curva é zero. Antes do lançamento do ChatGPT, em fim de 2022, nenhuma das amostras analisadas apresentava indícios de geração por IA. O salto até 35% ocorre em pouco mais de dois anos e meio, conforme o detector Pangram v3 utilizado pela equipe.

Pesquisa combina detector Pangram v3 e amostragem da Wayback Machine

A metodologia do estudo combinou amostragem multidimensional da Wayback Machine com a aplicação do detector Pangram v3. A escolha da ferramenta seguiu testes comparativos com Binoculars, Desklib e DivEye, em que o Pangram v3 apresentou maior robustez.

Conforme os autores, o conjunto de páginas analisadas foi estratificado para reduzir vieses de amostragem entre regiões, idiomas e categorias temáticas. Cada página recebeu uma classificação binária: gerada por IA, assistida por IA ou totalmente humana.

Em paralelo, a equipe conduziu uma survey com 853 adultos nos Estados Unidos para medir a percepção pública sobre conteúdo gerado por IA na internet. Os dois conjuntos de dados foram cruzados em seis testes de hipótese.

Crescimento parte do zero e atinge 35% em cerca de dois anos e meio

Os números do estudo mostram crescimento acelerado a partir de 2023. Antes de novembro de 2022, a curva permanece em zero. Após o lançamento do ChatGPT, a participação de novos sites com indícios de IA começa a subir e atinge a marca de 35% em meados de 2025.

A trajetória tem implicações diretas para estratégias de SEO, produção editorial e moderação de conteúdo. Plataformas, anunciantes e profissionais de marketing passam a operar em ambiente em que parcela relevante do conteúdo recém-publicado segue padrões de geração automatizada.

Os pesquisadores ressaltam que a classificação inclui tanto sites totalmente gerados por IA quanto sites em que humanos editaram texto produzido por modelos de linguagem. A categoria “assistida por IA” é responsável por boa parte do total.

Duas hipóteses confirmadas: contração semântica e tom positivo

O estudo testou seis hipóteses sobre o impacto do conteúdo gerado por IA. Duas foram confirmadas com significância estatística.

A primeira é a contração semântica, com correlação de 0,47 e p-valor de 0,004. Conforme os autores, a expansão de IA reduz a diversidade de termos e construções no conjunto de novos sites. A segunda é a mudança de sentimento na direção positiva, com correlação de 0,56 e p-valor de 0,0003 — textos gerados tendem a usar tom mais positivo do que textos humanos da mesma categoria.

Essa contração semântica afeta indiretamente as buscas em IA, uma vez que motores de resposta dependem da diversidade textual para fundamentar resultados.

Quatro hipóteses não foram confirmadas

Outras quatro hipóteses não obtiveram suporte estatístico nos dados analisados. A primeira diz respeito à queda de precisão factual: o estudo não encontrou evidência de que conteúdo gerado por IA reduza a acurácia das informações na web.

Em seguida, a hipótese de ilhas epistêmicas — fragmentação de comunidades online em torno de visões cada vez mais isoladas — também não apresentou correlação significativa. O mesmo ocorreu com a diluição de entropia e a monocultura estilística.

Os autores destacam que a ausência de confirmação não equivale à refutação definitiva, mas sinaliza que receios públicos sobre alguns desses fenômenos vão além do que o estudo conseguiu medir.

Survey aponta desalinhamento entre percepção pública e dados

A survey complementar, com 853 adultos americanos em amostra estratificada, identificou desalinhamento relevante entre percepção e medições. A maioria dos respondentes acredita nos seis impactos negativos investigados, inclusive nos quatro que não foram confirmados pelos dados.

Conforme os autores, o resultado mostra que o debate público sobre IA na internet tende a antecipar consequências que ainda não estão presentes em escala mensurável. Apenas a contração semântica e a mudança de tom apareceram tanto na percepção quanto nos dados.

Os autores publicaram código e dados em repositório público no GitHub, junto com a versão completa do paper em PDF disponível no site oficial do estudo.

Foto de Escrito por Diego Ivo

Escrito por Diego Ivo

Diego é CEO da Conversion, agência Líder em SEO e especializada em Search. Possui mais de uma década de experiência no mercado digital e é um dos principais experts no Brasil em SEO.

guest

0 Comentários
Inline Feedbacks
View all comments
Foto de Escrito por Diego Ivo

Escrito por Diego Ivo

Diego é CEO da Conversion, agência Líder em SEO e especializada em Search. Possui mais de uma década de experiência no mercado digital e é um dos principais experts no Brasil em SEO.

Compartilhe este conteúdo

Curso de SEO

Gratuito e com certificado. Mais de 13.620 pessoas já participaram.
Preencha o formulário e assista agora!

Estamos processando sua inscrição. Aguarde...

Seus dados de acesso à sua Jornada no curso serão enviados no e-mail cadastrado.
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.