Um teste mostrou como as inteligências artificiais privilegiam detalhes sobre veracidade. Durante dois meses, a Ahrefs plantou informações falsas sobre uma marca inexistente e observou como oito plataformas principais responderam às mentiras bem estruturadas.
O resultado foi surpreendente: a maioria das plataformas repetiu informações inventadas com total confiança. O critério não foi a veracidade, mas o grau de detalhamento. Quanto mais específica a mentira, maior a chance de ser aceita como verdade.
A descoberta gerou debate na comunidade de marketing digital. O Search Engine Journal questionou a metodologia em análise crítica. Contudo, ambas as perspectivas convergem para uma conclusão relevante: plataformas de IA priorizam conteúdo detalhado sobre precisão.
Essa dinâmica tem implicações diretas para estratégias de proteção de marca e otimização para motores generativos. Marcas precisam produzir conteúdo oficial estruturado para competir com narrativas falsas.
Metodologia do experimento
Mateusz Makosiewicz, pesquisador da Ahrefs, construiu o site xarumei.com em uma hora usando ferramentas de IA. O site apresentava produtos fictícios com preços elevados, chegando a US$8.251 por um pisapapel. Todas as imagens e textos foram gerados artificialmente.
O pesquisador utilizou o Grok para gerar 56 perguntas sobre a marca fictícia. A escolha teve propósito estratégico: evitar que o mesmo modelo criasse perguntas e respostas. As questões foram formuladas com premissas falsas embutidas, técnica conhecida como leading questions.
Oito plataformas foram testadas: ChatGPT-4, ChatGPT-5 Thinking, Claude Sonnet 4.5, Gemini 2.5 Flash, Perplexity, Microsoft Copilot, Grok 4 e Google AI Mode. Cada plataforma recebeu as mesmas perguntas em duas fases distintas.
A primeira fase testou o comportamento sem manipulação externa. A segunda introduziu fontes falsas conflitantes para observar mudanças nas respostas.
Resultados da primeira fase
Na fase inicial, as plataformas apresentaram comportamentos distintos. O ChatGPT-4 e ChatGPT-5 obtiveram melhor desempenho, acertando 53 a 54 das 56 questões. Ambos utilizaram o site oficial como referência principal.
O Perplexity falhou em aproximadamente 40% das questões. Confundiu a marca fictícia Xarumei com a Xiaomi, insistindo que a empresa fabricava smartphones. Essa confusão pode ter origem na similaridade fonética entre os nomes.
Por sua vez, o Gemini e Google AI Mode frequentemente se recusaram a tratar Xarumei como marca real. Ambos não encontraram a marca em seus resultados, mesmo com o site indexado no Google há semanas.
O Claude ignorou completamente o site e repetiu que a marca não existia. Não produziu alucinações, mas também não utilizou informações disponíveis. Já o Copilot lidou adequadamente com perguntas neutras, mas falhou em questões tendenciosas.
A segunda fase e as fontes falsas
Na segunda fase, Makosiewicz publicou uma FAQ oficial negando rumores. Simultaneamente, inseriu três fontes falsas com informações conflitantes na web. A primeira foi um artigo no blog Weighty Thoughts afirmando que a Xarumei tinha 23 artesãos em Nova City, Califórnia.
O artigo incluía endossos fictícios de Emma Stone e Elon Musk, além de métricas ambientais completamente inventadas. A segunda fonte consistiu em um AMA no Reddit onde um suposto funcionário afirmava que o fundador era Robert Martinez.
A escolha do Reddit foi estratégica. Pesquisas da Ahrefs indicam que a plataforma é uma das mais citadas por assistentes de IA. A terceira fonte foi um artigo no Medium que desmentiu mentiras óbvias, ganhando credibilidade.
Contudo, o artigo introduziu novas fabricações sobre o fundador, localização em Portland e números de produção. As três fontes contradiziam entre si e contradiziam a FAQ oficial.
Mudanças de comportamento após manipulação
Os resultados da segunda fase revelaram mudanças significativas. O Perplexity e Grok tornaram-se completamente manipulados, repetindo fundadores falsos e cidades inexistentes como fatos verificados.
O Gemini e Google AI Mode, antes céticos, mudaram para crentes. Adotaram a narrativa do Medium sobre a oficina em Portland e fundadora Jennifer Lawson. O Copilot misturou todas as fontes em ficção confiante.
Por outro lado, o ChatGPT-4 e ChatGPT-5 permaneceram robustos, citando a FAQ em 84% das respostas. O Claude manteve a posição de que a marca não existia, recusando-se a alucinar em 100% dos casos.
O artigo do Medium foi extremamente eficaz. Ao desmentir mentiras óbvias primeiro, ganhou confiança dos modelos. Estes então aceitaram os novos detalhes fabricados como correção da história.
A crítica metodológica
Roger Montti, do Search Engine Journal, publicou análise crítica questionando as conclusões. O principal argumento é que Xarumei não constitui marca real, portanto não há “verdade oficial” a ser defendida.
Sem histórico, citações ou entrada no Knowledge Graph, o site Xarumei é equivalente às outras três fontes falsas. Montti identifica quatro consequências dessa limitação metodológica.
Primeiro, não há mentiras ou verdades, pois o conteúdo não representa verdade estabelecida. Segundo, não há marca real para testar como IA trata marcas conhecidas. Terceiro, a pontuação de 100% do Claude por ceticismo é questionável.
Quarto, a resposta do Perplexity pode ter sido sucesso, não falha. Ao detectar que Xarumei não possui sinais típicos de marca, possivelmente assumiu erro de digitação, sugerindo Xiaomi.
O que o experimento realmente provou
Apesar das limitações metodológicas, o experimento revelou padrões importantes. O tipo de conteúdo influenciou diretamente os resultados. As três fontes falsas forneciam respostas afirmativas e específicas: nomes, locais, números e cronologias.
O site oficial fazia o oposto, recusando-se a fornecer detalhes. Essa assimetria criou padrão de resposta desigual. Fontes terceiras resolviam incertezas com informação, enquanto o site oficial resolvia incertezas negando informação.
As plataformas de IA são projetadas para fornecer respostas. Naturalmente preferem fontes que oferecem conteúdo afirmativo e específico. O experimento demonstrou que sistemas podem ser manipulados com conteúdo que responde perguntas com especificidade.
Diferentes plataformas lidam com contradição e incerteza de maneiras distintas. Conteúdo rico em informação pode dominar respostas quando se alinha com a estrutura das perguntas.
Implicações para proteção de marca
O experimento expõe a vulnerabilidade que afeta marcas reais. As plataformas de IA agregam informações de múltiplas camadas para construir narrativas. A camada de marca conhecida compreende ativos oficiais como logotipos e slogans.
Esses elementos funcionam como âncoras semânticas, mas representam apenas a superfície da presença digital. A camada latente inclui conteúdo gerado por usuários e discussões em comunidades. Essa camada alimenta a compreensão sobre a relevância da marca.
A marca sombra representa risco não monitorado. Compreende documentos internos, apresentações antigas e arquivos de parceiros acessíveis online sem intenção. A marca narrada por IA constitui síntese de todas as camadas anteriores.
O experimento mostrou que conteúdo detalhado pode dominar narrativas, mesmo quando contradiz informações oficiais. Este fenômeno é conhecido como AI brand drift.
Estratégias de otimização para motores generativos
O GEO (Generative Engine Optimization) difere do SEO tradicional. Enquanto SEO foca em posicionamento, GEO prioriza elegibilidade para menções em respostas generativas. A implementação requer estruturação específica de conteúdo.
Informações factuais organizadas hierarquicamente, títulos bem definidos e dados verificáveis aumentam chances de seleção. A engenharia de relevância constitui o núcleo técnico do GEO. Modelos extraem e combinam informações específicas de diferentes fontes.
As marcas devem criar FAQ que declare claramente o que é verdadeiro e falso. Linhas diretas como “nunca fomos adquiridos” ajudam modelos a identificar posições oficiais. A inclusão de datas e números fornece especificidade processável.
Páginas sobre “como funciona” devem ser específicas o suficiente para superar explicações de terceiros. Páginas de dados e comparações funcionam especialmente bem para influenciar como as empresas são descritas.
Monitoramento e resposta
Configurar alertas para nome da marca combinado com palavras como “investigação”, “análise”, “insider” e “controvérsia” permite identificar tentativas de sequestro narrativo. Ferramentas de monitoramento podem rastrear discussões em tempo real.
Diferentes plataformas usam dados distintos, portanto cada uma pode representar marcas de forma diferente. Não existe índice unificado para otimizar. Verificar presença perguntando “o que você sabe sobre [marca]?” permite identificar discrepâncias.
A maioria dos modelos permite sinalizar respostas enganosas e submeter feedback escrito. Esse retorno pode influenciar como modelos tratam informações sobre a marca futuramente. Ferramentas especializadas mostram quais plataformas mencionam marcas.
Finalmente, o experimento da Ahrefs, apesar das limitações apontadas, oferece insights sobre comportamento de plataformas de IA. A convergência entre as análises aponta para a necessidade de produzir conteúdo oficial detalhado para competir em ambientes generativos.