Yandex leak: como os vazamentos do buscador impactam o SEO?

Lucas Amaral
Lucas Amaral

Saiba como exposição de arquivos de empresa russa que conta com ex-funcionários do Google afeta o SEO

Os fatores de ranqueamento dos mecanismos de busca, estes responsáveis por 30% de todo o tráfego na web (Statista, 2022), são geralmente guardados “a sete chaves”, na “Caixa de Pandora” do SEO. Quando acontece um vazamento, como o que atingiu o buscador russo Yandex, no final de janeiro, é inevitável uma grande movimentação na comunidade.

Um ex-funcionário da empresa, que ocupa a quarta colocação no market share global (Statista, 2023), vazou um repositório (armazenamento de código) com 1.922 fatores de ranqueamento. 

Foram 44,7 gigabytes de arquivos expostos, relativos ao mês de julho de 2022. Ou seja, é possível que desde então o algoritmo tenha sofrido diversas atualizações. 

É o que afirma o próprio buscador ao BleepingComputer (2023). “O Yandex não foi hackeado. Nosso serviço de segurança encontrou fragmentos de um repositório interno em domínio público, mas o conteúdo difere da atual versão do repositório.”

Por outro lado, Grigoriy Nikolayevich Bakunov, antigo administrador de sistemas sênior da plataforma, disse que o atual código provavelmente não é idêntico, mas pode ter até 90% de similaridade.
Apesar disso, minimiza a difusão. “Os arquivos vazados contém apenas códigos. O importante são os dados. Partes essenciais, como o peso de modelo para redes neurais, estão ausentes. Por isso, é quase inútil”.

O engenheiro de software Arseniy Shestakov analisou os dados e disponibilizou uma lista com os nomes dos arquivos vazados. Estes são relacionados a funcionalidades do mecanismo de busca, dos robôs de indexação, do Yandex Maps, Yandex Direct (ou Yandex Ads), Yandex Cloud e Yandex Pay.

Apesar de os documentos se relacionarem a serviços que utilizam dados dos usuários, a companhia garante que as informações sobre as pessoas estão a salvo. “Os repositórios são necessários para trabalhar com o código e não armazenam dados pessoais dos usuários.”

O vazamento gerou uma grande movimentação na comunidade. O número de fatores de ranqueamento dos motores de pesquisa sempre foi desconhecido.

Para se ter uma ideia, as especulações sobre a quantidade de fatores do Google giravam em torno de 200. A revelação de que um concorrente utiliza quase dez vezes mais critérios foi um grande choque.

O vazamento chamou a atenção de especialistas em SEO pelo fato de que, pela primeira vez, foi possível ter em mãos todos os componentes avaliados para classificar páginas de um buscador. Mesmo que os dados não sejam do Google, principal alvo das pesquisas, para muitos é uma forma de compreender ainda mais o funcionamento de tais mecanismos.

A verdade é que as similaridades entre ambos são incógnitas. De fato, alguns dos fatores encontrados nos documentos do Yandex são datados ou não aplicados ao Google.

Assim funciona esse mercado. Mecanismos de buscas estabelecem diferentes critérios e adicionam novos sistemas ou modificam seus cálculos com frequência.

Quais foram os fatores de ranqueamento vazados do Yandex?

Martin MacDonald, fundador da MOG Media, uma consultoria de SEO voltada a agências de grande porte, criou uma página com os exatos 1.922 fatores de ranqueamento divulgados.

São extensas linhas de código que podem ser interpretadas de maneira precisa com uma análise técnica.

Dan Taylor, da Russian Search News (2022), avaliou cada um deles. De acordo com o consultor especialista em Yandex, 244 fatores foram classificados como “não utilizáveis”, já que seus nomes, descrições e outras informações não estão disponíveis no documento.

Outros 988 foram intitulados “antiquados”, pois foram removidos ou substituídos do sistema de buscas.
Sobram, assim, 690 fatores de ranqueamento para a análise. Alguns são conhecidos pelas comunidades de SEO, como:

  • Relevância, idade e atualização do conteúdo;
  • Tempo médio de permanência em páginas individuais;
  • Número de visitas em páginas individuais;
  • PageRank;
  • Cliques e taxa de cliques (CTR);
  • Aparição da palavra-chave no texto, headings e conteúdo;
  • Relevância e idade dos links de entrada;
  • Comportamento do usuário na página;
  • Confiabilidade do serviço de hospedagem;
  • Priorização de certos sites, como a Wikipedia.

Este último fator é interessante, pois há muito se sabe que determinados temas recebem atenção especial dos mecanismos de busca, como medicina, finanças e direito, popularmente conhecidos como YMYL (Your Money ou Your Life ou Seu Dinheiro ou Sua Vida, na tradução do inglês para o português).

Outros, porém, foram considerados surpreendentes. É o caso da classificação média do domínio em todas as pesquisas. O que confirma a necessidade de poda de conteúdo (content pruning) para páginas de baixa performance.

O número de visitantes únicos também impacta na classificação do mecanismo, possivelmente revelando que o tráfego é subdividido em outras categorias, com diferentes pesos no ranqueamento. O próprio percentual de tráfego orgânico foi revelado como um dos critérios.

Há, ainda, alguns fatores cuja interpretação não é precisa. Por exemplo, algo que foi classificado como “pessimization” (em tradução livre, pessimização).

Taylor especula que esse seja um indicativo de que páginas que sofrem penalizações têm deduzida a sua pontuação no PageRank e, por isso, recuperá-la é muito difícil.

Mais uma informação que espanta é a quantidade de fatores que fazem alusão à URL: 130. Algumas das principais confirmam antigas conjecturas.

Por exemplo, que não se deve utilizar números, excesso de separadores (como hífens) e manter os endereços concisos. E que URLs que possuem textos que correspondem à busca do usuário tendem a influenciar positivamente.

O horário e os dias da semana também aparecem como fatores influenciadores. Ao que tudo indica, isso interfere especialmente no SEO local. Os resultados para uma busca por localidade, por exemplo, podem priorizar lugares que estejam abertos no momento em que a pesquisa foi realizada.

O que os vazamentos do Yandex dizem sobre o Google?

Alex Buraks, Head de Growth da Discover Cars, afirmou no Twitter que há 70% de similaridade entre o Google e o Yandex. Como justificativa, diz que muitos ex-funcionários da gigante norte-americana agora trabalham no buscador russo, projetado para ser um “clone” do Google. 

Essa pode ser uma afirmação arriscada. Embora existam diversos fatores comuns aos dois buscadores, ambos estão em constante atualização. 

Entretanto, os vazamentos do Yandex podem trazer vários insights para profissionais de SEO.

Ou como diz Michael King, importante nome do setor e que no momento está escrevendo o livro A Ciência do SEO, “O Yandex não é o Google. Ainda assim, ambos são motores de pesquisa de última geração que mantêm-se na vanguarda da tecnologia” (Search Engine Land, 2023). 

Por essa razão, o ideal é utilizar esses fatores de ranqueamento como base para fazer algo que os profissionais de SEO estão acostumados: testes. Por meio da tentativa e erro é possível avaliar quais são as relações entre os algoritmos. 

Se você deseja contar com uma agência parceira para melhorar a sua performance nos mecanismos de busca, entre em contato conosco. A Conversion segue as práticas de SEO mais recentes do mercado para sua marca se manter um passo à frente da concorrência. 

Escrito por Lucas Amaral

Escrito por Lucas Amaral

Escrito por Lucas Amaral

Escrito por Lucas Amaral

Compartilhe este conteúdo
Compartilhe
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.
>