Pesquisa revela: respostas de IA podem ser manipuladas com facilidade

Estudo da Universidade de Columbia demonstra que grandes modelos de linguagem são mais suscetíveis à influência do que se imaginava. A descoberta levanta questões sobre a confiabilidade de sistemas baseados em IA. 

Pesquisadores da Universidade de Columbia publicaram uma análise mostrando que reescritas estratégicas de descrições de produtos aumentam a taxa de recomendação em LLMs para 90%. O trabalho, intitulado “E-GEO: A Testbed for Generative Engine Optimization in E-Commerce”, demonstra que otimizações simples podem alterar o comportamento de sistemas como GPT-4o de maneira previsível.

O estudo utilizou mais de 7 mil consultas reais de produtos combinadas com 50 mil listagens da Amazon. Os pesquisadores criaram dois agentes de IA: um para reescrever descrições e outro para avaliar resultados. O agente otimizador testou múltiplas estratégias até identificar padrão consistente.

A metodologia revela a fragilidade dos LLMs. Sistemas probabilísticos por natureza, os modelos baseiam decisões em padrões reconhecidos durante treinamento. Por isso, alterações na apresentação de informações podem gerar mudanças nas respostas. A Conversion identificou que nem mesmo criadores dos sistemas explicam como funcionam.

Estratégia universal surpreende pesquisadores

Contrariando a expectativa de que IA priorizaria conteúdo conciso e factual, o estudo descobriu convergência para estilo específico. Descrições mais longas, com tom persuasivo e repletas de reformulações que fazem detalhes existentes parecerem mais impressionantes, alcançaram taxa de vitória de 90% contra descrições originais.

A descoberta se mostra preocupante porque a estratégia funciona independentemente da categoria. Um padrão desenvolvido usando produtos domésticos alcançou taxa de vitória de 88% quando aplicado a eletrônicos e 87% quando aplicado a roupas. Vendedores não precisam de expertise por categoria para manipular o sistema.

O conceito de Large Language Model envolve sistemas de inteligência artificial treinados em vastos conjuntos de dados textuais para compreender e gerar linguagem humana. A capacidade traz vulnerabilidades inerentes. A natureza probabilística dos modelos significa que outputs variam no nível micro, mesmo com prompts idênticos.

Pesquisadores de outras instituições corroboram os achados. Estudo anterior de Aggarwal demonstrou que densidade factual, através de citações e estatísticas, aumentava visibilidade em 40%. O trabalho de Columbia sugere que verbosidade e persuasão superam citações como alavancas de influência.

Técnica RAG aumenta vulnerabilidade

O ChatGPT utiliza Retrieval-Augmented Generation (RAG), técnica que busca informações atualizadas na internet para responder perguntas. Mesmo conteúdo não presente no banco de dados original pode ser encontrado online. Testes demonstraram que o sistema começou a usar títulos de posts novos para atualizar respostas poucas horas após publicação.

A velocidade com que LLMs incorporam informações novas cria oportunidade e risco. Publishers podem influenciar respostas publicando conteúdo atualizado, mas isso também abre porta para manipulação. A otimização para motores de resposta emerge como disciplina necessária, porém eticamente complexa.

A distinção entre otimização legítima e manipulação torna-se nebulosa. Quando uma empresa estrutura conteúdo para ser facilmente citado por IA, está oferecendo melhor experiência ou tentando enganar sistemas? A linha entre práticas recomendadas e táticas questionáveis permanece indefinida.

Outro estudo, conduzido por Kumar, demonstrou que inserir sequência estratégica de tokens em formato JSON nas páginas de produtos pode melhorar a visibilidade nos LLMs. O trabalho conclui que os vendedores conseguem aumentar a visibilidade de produtos nas recomendações através de texto otimizado inserido nas páginas de informação.

Inconsistência complica medição

A inconsistência representa problema adicional para mensuração e controle. Quando o mesmo prompt é executado cinco vezes, apenas 20% das marcas aparecem consistentemente nas respostas, segundo análise da AirOps. Essa volatilidade dificulta tanto a otimização quanto a detecção de manipulação.

Modelos também têm viés baseado em dados de pré-treinamento. Dan Petrovic denomina isso “Primary Bias”. Quanto podemos influenciar ou superar esse viés de treinamento permanece incerto. A questão se complica porque os modelos evoluem constantemente. O ChatGPT tornou-se mais inteligente na transição da versão 3.5 para 5.2, mas as táticas antigas continuam funcionando?

Modelos diferentes ponderam fontes de maneira distinta para treinamento e recuperação web. O ChatGPT inclina-se mais para Wikipedia, enquanto AI Overviews citam Reddit com maior frequência, conforme análise da Semrush. Essa variação entre plataformas exige estratégias diferenciadas por modelo.

A personalização adiciona camada extra de complexidade. Gemini pode ter mais acesso a dados pessoais através do Google Workspace do que ChatGPT, portanto fornecendo resultados mais personalizados. Modelos também variam no grau em que permitem personalização.

Corrida armamentista se aproxima

O corpo crescente de pesquisas demonstra a fragilidade dos LLMs. São sensíveis à forma como as informações são apresentadas. Mudanças estilísticas que não alteram a utilidade real do produto podem mover item do fundo da lista para primeira recomendação.

O problema de longo prazo envolve escala. Desenvolvedores de LLMs precisam encontrar formas de reduzir o impacto dessas táticas manipulativas para evitar corrida armamentista com otimizadores. Se técnicas de otimização se tornarem disseminadas, marketplaces poderão ser inundados com conteúdo inflado, reduzindo a experiência do usuário.

O Google enfrentou situação similar e lançou atualizações Panda e Penguin. A diferença é que LLMs operam em escala e velocidade diferentes. A capacidade de influenciar respostas em horas, não meses, acelera potencial para abuso. Contudo, também acelera o potencial para detecção e correção.

Desenvolvedores argumentam que LLMs fundamentam respostas em resultados clássicos de busca, que são filtrados por qualidade. A fundamentação varia entre modelos. Nem todos os LLMs priorizam páginas ranqueadas no topo do Google. O Google protege cada vez mais seus resultados contra outros LLMs.

Impacto em setores específicos

O tráfego de inteligência artificial cresceu 527% nos Estados Unidos, com padrões específicos por setor. Legal, finanças, saúde, pequenas e médias empresas e seguros representam 55% de todas as sessões originadas por modelos de linguagem. Este padrão reflete a natureza das consultas direcionadas às IAs.

Usuários não tratam IAs como mecanismos de busca tradicionais. Formulam questões específicas como “Quais cuidados devo ter ao assinar este contrato?” ou “Como estruturar folha de pagamento para uma floricultura com cinco funcionários?”. Estas consultas demonstram alta intenção e necessidade de orientação especializada.

O Generative Engine Optimization (GEO) emerge como subárea do SEO focada em otimização para engines de inteligência artificial generativa. O objetivo principal é ser citado e referenciado em respostas de IA. Enquanto SEO tradicional busca posicionamento em listas de resultados, GEO visa integração direta nas respostas geradas pelos modelos.

A estruturação de conteúdo para GEO prioriza blocos facilmente extraíveis. Informações organizadas em pontos informativos, resumos executivos no início de seções e dados com fontes claras aumentam chances de citação. Seções FAQ estruturadas em linguagem natural antecipam perguntas que usuários fariam diretamente às IAs.

Questões éticas emergem

A possibilidade de influenciar respostas de IA levanta questões éticas sobre responsabilidade e transparência. Se empresas podem manipular recomendações através de otimizações, quem garante que informações fornecidas aos usuários permanecem precisas? A linha entre otimização e desinformação torna-se tênue.

Desenvolvedores de LLMs enfrentam dilema. Precisam balancear abertura do sistema, que permite incorporação de informações novas, com proteção contra manipulação maliciosa. Fechar demais o sistema torna as respostas desatualizadas. Abrir demais convida abuso.

A regulamentação surge como possibilidade. Governos podem exigir transparência sobre fontes usadas por LLMs ou estabelecer padrões para prevenção de manipulação. Regulação arriscaria sufocar inovação em área que evolui. O equilíbrio entre proteção e progresso permanece um desafio não resolvido.

Usuários precisam desenvolver literacia para IA. Assim como aprenderam a questionar resultados de busca e verificar fontes, precisam entender que respostas de IA são suscetíveis a viés. Ceticismo saudável torna-se ferramenta de proteção.

Branding semântico ganha relevância

A descoberta por IA exige evolução do conceito tradicional de posicionamento de marca. O branding semântico representa aplicação dos princípios clássicos com granularidade para a era das inteligências artificiais. Marcas anteriormente competiam para ser “o melhor CRM” ou “a consultoria de marketing”.

Agora precisam ocupar posições específicas nos embeddings das IAs. O posicionamento torna-se “o software de gestão financeira para e-commerces com faturamento entre R$500 mil e R$5 milhões” ou “a consultoria especializada em marketing digital para clínicas odontológicas em São Paulo”. Esta especificidade aumenta as chances de correspondência quando as IAs processam prompts.

Cada atributo adicional — localização, faixa de preço, público-alvo, situações de uso — amplia possibilidades de citação em respostas geradas com IA. A pergunta fundamental que toda marca deve fazer é: “O modelo vai se lembrar de você?”. Esta questão define sucesso ou invisibilidade na era da inteligência artificial.

O arquivo llms.txt surge como proposta para guiar grandes modelos de linguagem através de conteúdo estruturado. Embora ainda não tenha adoção oficial pelas empresas de IA, o conceito representa uma tentativa de estabelecer padrões para comunicação entre sites e sistemas de IA.

O futuro permanece incerto

A pesquisa da Columbia contribui para o crescente corpo de evidências demonstrando que LLMs podem ser influenciados de formas que seus criadores não anteciparam completamente. Isso não significa necessariamente que sistemas são defeituosos, mas que operam de maneiras que desafiam controle tradicional.

A questão não é se devemos otimizar para LLMs, mas como fazer isso de forma ética e sustentável. Empresas precisam de visibilidade em motores de resposta. Usuários merecem informações precisas. Desenvolvedores querem sistemas confiáveis. Encontrar equilíbrio entre essas necessidades define próximo capítulo na evolução da busca.

A ironia não passa despercebida. Ao publicar sobre técnicas de otimização, pesquisadores e profissionais contribuem para o problema que descrevem. Contudo, transparência permanece essencial. Desenvolvedores de LLMs precisam entender vulnerabilidades para endereçá-las. Empresas precisam compreender dinâmicas para participar eticamente do ecossistema.

O comportamento de busca permanece saudável, com ChatGPT dominando como primeira marca associada à inteligência artificial por 64,3% dos brasileiros. Isso demonstra que transição para motores de resposta baseados em IA já está em curso. A questão não é se essa mudança acontecerá, mas como navegaremos suas implicações.

A história do SEO oferece lições. A corrida armamentista entre otimizadores e mecanismos de busca resultou em um ecossistema mais maduro. O mesmo processo provavelmente ocorrerá com LLMs. As manipulações fáceis de hoje serão detectadas e mitigadas amanhã. Novas técnicas surgirão. O ciclo continuará até alcançarmos um equilíbrio mais estável entre otimização legítima e manipulação inaceitável.

Foto de Escrito por Maurício Schwingel

Escrito por Maurício Schwingel

guest

0 Comentários
Inline Feedbacks
View all comments
Foto de Escrito por Maurício Schwingel

Escrito por Maurício Schwingel

Compartilhe este conteúdo

Curso de SEO

Gratuito e com certificado. Mais de 13.620 pessoas já participaram.
Preencha o formulário e assista agora!

Estamos processando sua inscrição. Aguarde...

Seus dados de acesso à sua Jornada no curso serão enviados no e-mail cadastrado.
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.