Pesquisadores revelam como datas falsas manipulam classificações de IA

Um estudo da Universidade de Waseda demonstrou que adicionar datas falsas a conteúdos na internet pode aumentar sua visibilidade em modelos de inteligência artificial. 

A descoberta confirma que ferramentas como o ChatGPT, o Claude e o Gemini priorizam sistematicamente conteúdo mais recente sobre material antigo. Essa priorização ocorre independentemente da qualidade ou relevância do material. O experimento revela uma vulnerabilidade nos sistemas de IA que estão transformando como as pessoas buscam informações.

Com o ChatGPT processando 20 milhões de buscas diárias e o Google integrando AI Overviews em seus resultados, a manipulação temporal pode comprometer a qualidade das informações. Os usuários podem receber dados menos confiáveis simplesmente porque são apresentados como mais recentes.

A pesquisa surge em um momento crítico para o mercado de buscas. Dados da Conversion em parceria com a ESPM mostram que 93% dos brasileiros já usaram ferramentas de IA, com metade utilizando diariamente. A convergência entre AI Overviews e resultados orgânicos cresceu de 32,3% para 54,5% desde maio de 2024.

Como o experimento foi conduzido

Os pesquisadores da Universidade de Waseda desenvolveram uma metodologia simples para testar o viés temporal. Eles selecionaram passagens de coleções padronizadas de testes acadêmicos e adicionaram datas de publicação falsas. Nenhum outro aspecto do conteúdo foi alterado.

O teste envolveu sete modelos principais de inteligência artificial: GPT-4o, GPT-3.5, Claude, LLaMA-3, Gemini, Qwen-2.5 e outros sistemas comerciais. Os pesquisadores solicitaram que cada modelo classificasse os resultados para consultas específicas. Em seguida, compararam o posicionamento do mesmo conteúdo com datas diferentes.

Os resultados foram consistentes em todos os modelos testados. Conteúdos com datas mais recentes subiram entre 1 e 95 posições na classificação. A média de movimento foi de 1 a 5 anos em direção a conteúdo mais novo nas posições de topo.

Os pesquisadores denominaram esse fenômeno de “efeito gangorra”. O modelo LLaMA-3-8B da Meta apresentou o maior viés, com 25% de reversões completas de relevância baseadas apenas na data. Já o Qwen-2.5-72B da Alibaba mostrou-se mais resistente, com apenas 8% de reversões.

A descoberta no código-fonte

A pesquisa ganhou credibilidade adicional quando o pesquisador independente Metehan Yesilyurt encontrou evidências diretas no código do ChatGPT. A configuração “use_freshness_scoring_profile: true” estava definida nos arquivos de configuração. Isso confirmou que o sistema prioriza conteúdo recente por design.

Além disso, Yesilyurt identificou que o modelo Skysight-v3 possui viés temporal incorporado em seu treinamento. Isso significa que a preferência por conteúdo recente não é apenas um parâmetro configurável. Na verdade, está integrada na arquitetura do sistema.

Essa descoberta levanta questões sobre a transparência dos sistemas de inteligência artificial. Enquanto o Google historicamente documentou seus fatores de classificação, as empresas de IA não divulgam como seus modelos priorizam informações. Essa opacidade dificulta que os criadores de conteúdo entendam como otimizar legitimamente para essas plataformas.

Paralelo com as práticas de black hat SEO

A manipulação de datas em IA apresenta paralelos com técnicas de black hat SEO que prejudicaram o ecossistema de busca no passado. Assim como keyword stuffing e link farms tentavam manipular o Google, a falsificação de datas busca explorar vulnerabilidades nos algoritmos de inteligência artificial.

No SEO tradicional, práticas como cloaking, conteúdo duplicado e redirecionamentos enganosos levaram a penalizações severas. Sites que utilizavam essas técnicas eram rebaixados ou removidos dos índices de busca. Com o tempo, o Google desenvolveu algoritmos cada vez mais sofisticados para detectar e punir manipulações.

A diferença fundamental é que o ecossistema de IA generativa ainda é muito novo. Enquanto o Google teve mais de 20 anos para refinar seus sistemas de detecção, plataformas como o ChatGPT e o Claude existem há menos de dois anos em sua forma comercial. Essa imaturidade cria oportunidades para manipulação que ainda não são adequadamente monitoradas.

Por outro lado, a história do SEO mostra que técnicas manipulativas podem gerar resultados imediatos, mas levam a consequências negativas. Sites que investiram em black hat frequentemente perderam todo seu tráfego quando algoritmos foram atualizados. O mesmo padrão pode se repetir com a manipulação de sistemas de inteligência artificial.

O cenário atual do GEO

O conceito de GEO (Generative Engine Optimization) representa uma disciplina nova no marketing digital. Diferentemente do SEO tradicional que busca posicionamento em listas de resultados, o GEO visa ser citado diretamente nas respostas geradas por IA.

A novidade do GEO significa que ainda não existem diretrizes estabelecidas ou melhores práticas consolidadas. Os profissionais estão experimentando diferentes abordagens sem clareza sobre o que constitui otimização legítima versus manipulação. Essa zona cinzenta cria riscos para empresas que podem inadvertidamente cruzar linhas éticas.

Por sua vez, o investimento massivo em IA pelas big techs intensifica a pressão por resultados. A Alphabet anunciou US$75 bilhões em infraestrutura de IA para 2025, enquanto a OpenAI alcançou avaliação de US$500 bilhões. Essa corrida tecnológica pode acelerar a implementação de sistemas antes que mecanismos adequados de detecção sejam desenvolvidos.

Ademais, a falta de transparência dos modelos de IA complica ainda mais o cenário. Enquanto o Google publica diretrizes claras sobre práticas aceitáveis, as empresas de IA não estabelecem padrões similares. Isso deixa os profissionais sem orientação clara sobre limites éticos e técnicos.

Implicações para criadores de conteúdo

A descoberta do viés temporal cria dilemas éticos e práticos para os criadores de conteúdo. A tentação de adicionar datas falsas ou atualizar superficialmente conteúdo antigo pode parecer atrativa diante da perda de visibilidade em sistemas de inteligência artificial.

Os dados mostram que 85% das citações em AI Overviews vêm de conteúdo publicado nos últimos dois anos. Isso significa que material de alta qualidade, mas mais antigo, pode se tornar invisível independentemente de sua relevância ou autoridade. Pesquisas acadêmicas, guias definitivos e conteúdo evergreen são particularmente prejudicados.

Além disso, o fenômeno pode acelerar a proliferação de conteúdo superficial. Se os sistemas de IA recompensam novidades sobre profundidade, os criadores podem priorizar volume e frequência sobre qualidade. Isso degradaria a qualidade geral das informações disponíveis na internet.

Paralelamente, a pressão por atualizações constantes também aumenta custos operacionais. Manter bibliotecas de conteúdo perpetuamente atuais requer recursos significativos. Esses recursos podem não estar disponíveis para publicadores menores ou organizações sem fins lucrativos.

O futuro da integridade informacional

A facilidade com que modelos de IA podem ser manipulados através de datas falsas levanta questões sobre o futuro da integridade informacional. Se os sistemas que milhões usam para obter informações podem ser facilmente enganados, a confiabilidade do ecossistema digital está em risco.

As empresas de IA precisam desenvolver mecanismos de detecção mais sofisticados. Isso pode incluir análise de padrões de atualização, verificação cruzada com arquivos históricos e identificação de mudanças superficiais versus substanciais. O desenvolvimento desses sistemas levará tempo e recursos consideráveis.

Além disso, a regulamentação pode se tornar necessária se a autorregulação falhar. Assim como existem leis contra publicidade enganosa e fraude no mundo físico, frameworks legais podem surgir para combater a manipulação de IA. A União Europeia já sinalizou interesse em regular aspectos de inteligência artificial através do AI Act.

Paralelamente, a educação dos usuários sobre as limitações da IA torna-se cada vez mais crítica. Compreender que os sistemas de IA podem ser manipulados e que preferem recência sobre qualidade ajuda os usuários a avaliar criticamente as informações recebidas.

O futuro das buscas na era da IA

O experimento da Universidade de Waseda expõe uma vulnerabilidade fundamental nos sistemas de IA que estão redefinindo como acessamos informações. A capacidade de manipular classificações simplesmente alterando datas demonstra que esses modelos permanecem frágeis a técnicas básicas de manipulação.

O paralelo com a era inicial do black hat SEO serve como advertência importante. A história mostra que explorar vulnerabilidades algorítmicas pode oferecer ganhos temporários, mas leva a consequências negativas quando os sistemas amadurecem. As empresas que investem em manipulação acabam perdendo visibilidade e credibilidade.

Por sua vez, o ecossistema de GEO e otimização para IA ainda está em sua infância. Essa imaturidade cria oportunidades e riscos em igual medida. Os profissionais devem resistir à tentação de explorar vulnerabilidades óbvias e focar em criar valor genuíno.

A responsabilidade recai sobre todos os participantes do ecossistema. As empresas de IA devem melhorar seus sistemas de detecção e ser mais transparentes sobre os fatores de classificação. Os criadores de conteúdo devem manter padrões éticos mesmo quando a tentação de manipular é forte.

O futuro da busca e descoberta de informações depende da integridade coletiva do ecossistema. Se permitirmos que a manipulação prolifere sem controle, a promessa transformadora da IA será comprometida. A escolha entre construir um futuro digital confiável ou permitir sua degradação está sendo feita agora, através das decisões diárias de milhões de participantes.

Foto de Escrito por Maurício Schwingel

Escrito por Maurício Schwingel

guest

0 Comentários
Inline Feedbacks
View all comments
Foto de Escrito por Maurício Schwingel

Escrito por Maurício Schwingel

Compartilhe este conteúdo

Curso de SEO

Gratuito e com certificado. Mais de 13.620 pessoas já participaram.
Preencha o formulário e assista agora!

Estamos processando sua inscrição. Aguarde...

Seus dados de acesso à sua Jornada no curso serão enviados no e-mail cadastrado.
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.