44% das citações do ChatGPT vêm do primeiro terço do conteúdo

Pesquisa da Growth Memo analisou 1,2 milhão de respostas e mostra que posição no texto, linguagem definitiva e densidade de entidades determinam quais conteúdos o ChatGPT cita

Pesquisa publicada pela Growth Memo analisou 1,2 milhão de respostas do ChatGPT e identificou que 44,2% das citações da ferramenta vêm dos primeiros 30% do conteúdo. O estudo, conduzido por Kevin Indig, mapeou 30 milhões de citações para identificar padrões de seleção da IA.

Os dados revelam uma distribuição desigual ao longo dos textos: o terço intermediário responde por 31,1% das citações, enquanto o terço final concentra 24,7%. A análise usou embeddings semânticos e processamento de linguagem natural para verificar 18.012 citações com significância estatística (p < 0,0001).

Além da posição, o estudo identificou cinco características que aumentam a probabilidade de citação pelo modelo: linguagem definitiva, densidade de entidades nomeadas, presença de perguntas no texto, nível de leitura universitário e tom analítico balanceado. A combinação desses fatores diferencia conteúdos frequentemente citados daqueles ignorados pela IA.

Como o ChatGPT seleciona conteúdo para citar

O estudo da Growth Memo revelou que o ChatGPT segue uma lógica similar à de jornalistas ao selecionar trechos para citar. Kevin Indig, autor da pesquisa, descreveu esse comportamento no artigo publicado em fevereiro de 2026.

“A IA lê como um jornalista. Ela pega o Quem, O quê, Onde do topo”, afirmou Indig. O padrão segue a estrutura conhecida como BLUF (Bottom Line Up Front), que prioriza informações-chave no início do texto e facilita a extração automatizada de dados pelo modelo.

A pesquisa também identificou que o modelo privilegia conteúdo capaz de resolver consultas de forma concisa. “A IA prefere um texto que permita resolver a consulta em uma única frase”, destacou o pesquisador. Essa preferência explica a concentração de citações nos parágrafos iniciais dos artigos analisados.

Distribuição de citações por posição no conteúdo

A análise posicional revelou um padrão que o pesquisador descreveu como “rampa de esqui” — uma curva descendente de concentração ao longo do texto. Os primeiros 30% do conteúdo concentram 44,2% de todas as citações verificadas pelo estudo.

O terço intermediário (entre 30% e 70% do texto) recebeu 31,1% das citações totais. Já o terço final concentrou apenas 24,7%, o que confirma que a relevância percebida pelo modelo diminui progressivamente conforme o texto avança.

Dentro dos parágrafos, a distribuição seguiu outro padrão. As frases intermediárias concentraram 53% das citações, enquanto a primeira frase respondeu por 24,5% e a última por 22,5%. Esses dados indicam que o ChatGPT privilegia frases de desenvolvimento sobre frases de abertura ou fechamento.

A curva descendente se manteve estável nos quatro lotes de validação randomizados, o que reforça a robustez estatística do padrão. Independentemente do tema ou extensão do artigo original, a concentração no primeiro terço permaneceu consistente ao longo de toda a amostra.

Metodologia: 1,2 milhão de respostas analisadas

O estudo utilizou a plataforma Gauge para coletar 1,2 milhão de respostas do ChatGPT contendo citações de conteúdo web. Do total de 30 milhões de citações identificadas, 18.012 foram selecionadas para análise posicional detalhada e 11.022 para análise linguística.

A verificação empregou o modelo sentence-transformer all-MiniLM-L6-v2 para gerar embeddings semânticos das citações. Os resultados alcançaram significância estatística com p-value inferior a 0,0001, e a consistência foi validada em quatro lotes randomizados independentes.

O desenho experimental separou o conteúdo em três faixas posicionais iguais (0-30%, 30-70%, 70-100%) e comparou as características linguísticas de trechos citados contra não citados. Essa abordagem permitiu isolar o efeito de cada variável sobre a probabilidade de citação.

Linguagem definitiva e perguntas aumentam citações

O conteúdo citado pelo ChatGPT apresentou 36,2% de linguagem definitiva — frases diretas e assertivas —, contra 20,2% no conteúdo não citado. A diferença de quase o dobro indica que o modelo prioriza trechos com afirmações claras e verificáveis sobre formulações vagas ou condicionais.

A presença de perguntas no texto também mostrou forte correlação com citações. O conteúdo selecionado pelo modelo continha perguntas em 18% dos trechos analisados, enquanto o não citado registrou 8,9%. Adicionalmente, 78,4% do texto citado utilizava perguntas nos cabeçalhos das seções.

Esses números demonstram que formatos de pergunta-resposta facilitam a extração de informação pelo ChatGPT. O modelo identifica perguntas como sinais de que o trecho seguinte contém uma resposta direta, o que favorece a seleção para citação nas respostas geradas.

Densidade de entidades e nível de leitura

A densidade de entidades nomeadas — como nomes de marcas, ferramentas e pessoas — foi significativamente maior no conteúdo citado. Os trechos selecionados apresentaram 20,6% de entidades, contra a faixa de 5% a 8% observada no conteúdo geral analisado pelo estudo.

O nível de leitura, medido pela escala Flesch-Kincaid, também diferenciou os dois grupos de forma expressiva. O conteúdo citado registrou Grade 16, equivalente a nível universitário, enquanto o não citado apresentou Grade 19,1, correspondente a nível acadêmico de pós-graduação.

A pontuação de subjetividade do conteúdo citado ficou em 0,47, numa escala de 0 (puramente factual) a 1 (puramente opinativo). Esse valor representa um tom analítico balanceado, que combina dados objetivos com interpretação estruturada — padrão mais eficaz para seleção pelo modelo do que textos puramente descritivos.

Dados do estudo para otimização de conteúdo

O estudo quantificou cinco variáveis que diferenciam conteúdo citado de não citado pelo ChatGPT. A linguagem definitiva (36,2% vs 20,2%), as perguntas no texto (18% vs 8,9%) e a densidade de entidades (20,6% vs 5-8%) foram os fatores com maior diferença percentual entre os dois grupos.

O nível de leitura universitário (Grade 16) superou o acadêmico (Grade 19,1) em probabilidade de citação, o que indica que textos acessíveis têm vantagem sobre conteúdos excessivamente técnicos. O tom analítico balanceado (subjetividade 0,47) também favoreceu a seleção em relação a textos puramente descritivos ou opinativos.

Indig exemplificou a densidade de entidades ideal com frases que incluem nomes de ferramentas específicas, como “as principais plataformas incluem Salesforce, HubSpot e Pipedrive”. Esse tipo de construção, segundo o estudo, aumenta a chance de o trecho ser selecionado como fonte pelo modelo de IA.

Os dados compilados pela Growth Memo indicam que a estruturação de conteúdo com informações-chave no primeiro terço, combinada com alta densidade de nomes próprios e formato pergunta-resposta, amplia a probabilidade de citação em respostas de IA generativa. A pesquisa serve como referência para profissionais que trabalham com SEO e otimização para ferramentas de inteligência artificial.

Foto de Escrito por Diego Ivo

Escrito por Diego Ivo

Diego é CEO da Conversion, agência Líder em SEO e especializada em Search. Possui mais de uma década de experiência no mercado digital e é um dos principais experts no Brasil em SEO.

guest

0 Comentários
Inline Feedbacks
View all comments
Foto de Escrito por Diego Ivo

Escrito por Diego Ivo

Diego é CEO da Conversion, agência Líder em SEO e especializada em Search. Possui mais de uma década de experiência no mercado digital e é um dos principais experts no Brasil em SEO.

Compartilhe este conteúdo

Curso de SEO

Gratuito e com certificado. Mais de 13.620 pessoas já participaram.
Preencha o formulário e assista agora!

Estamos processando sua inscrição. Aguarde...

Seus dados de acesso à sua Jornada no curso serão enviados no e-mail cadastrado.
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.