Analiza czynników rankingowych po wycieku kodu źródłowego Yandex.ru

27 stycznia, 2023

26 stycznia wyciekły zewnętrzne repozytoria Yandex.ru. Dla SEOwców najbardziej interesującym aspektem tego wycieku jest lista 1922 czynników rankingowych w wyszukiwarce Yandex

Aby nie powielać artykułów już powstałych i opisujących całe zajście, skoncentruje się tu tylko na Analizie czynników rankingowych

📌 O całej historii wycieku możecie poczytać tutaj:

📌 Całe repozytorium dostępne jest tutaj:

📌 W ramach wstępu polecam też dobre artykuły, które omawiają temat całościowo:

📌 Zestawienie przetłumaczonych na język polski czynników rankingowych

1922 czynniki rankingowe Yandex.ru przetłumaczone na polski

📌 Przydatne zestawienie wszystkich czynników z komantarzem ChatGPT

Komentarz ChatGPT do czynników rankingowych Yandexa

Gotowy zanurzyć się w świat czynników? Zaczynamy…

Informacja: To tylko cześć z 1922 czynników: Wylistowałem te, które uważałem za ważne i były dla mnie jakkolwiek zrozumiałe

Spis treści

Co mają wspólnego czynniki rankingowe Yandexa z Google?

Biorąc pod uwagę kierunek kopiowania rozwiązań Google’a obrany przez Yandex możemy uznać, że jakiejś części te systemy są zbieżne. Jakie fakty za tym przemawiają:

Logika wyszukiwań i wyników wydaje się podobna
W Yandex pracują ex pracownicy Gogle;a
Przyglądając się rosyjskim forom white hat widzimy ,że metody stosowane przez SEOwców są podobne do tych jakie stosują SEOwcy w Google
Google ma RankBraina a Yandex… MatrixNet
Google i Yandex żywają razem czynnika PageRank
…i najważniejsze: Jeśli dokładnie wczytasz się w dokumentacje czynników rankingowych zauważysz, że potwierdzają one Twoje przypuszczenia na temat działania algorytmów Google np. „Wiek Linków”

Lista czynników rankingowych Yandex.ru

Alex Buraks I Dominic Woodman wykonali już częściowo zadanie analizy Na Twitterze

Link: 💬 Alex Buraks

Lista kodu źródłowego czynników rankingowych podanych przez Alexa: 📌 LISTA

Przydatne narzędzie do eksploracji: 📌 Yandex Search Ranking Factor Explorer by Rob Ousbey

💡 Page Rank jest czynnikiem rankingowym

W Google jest to samo, tylko na jakimś etapie straciliśmy dostęp do tych danych, które kiedyś udostępniał Google. Natomiast w środowisku SEO panuje silne przekonanie, że te mechanizmy działają dalej, może nie sa one już tak mocno determinujące moc domeny i pewnie wchodzą w skład bardziej rozbudowanych algorytmów

💡 Wiek linków jest czynnikiem rankingowym

W kontekście działania algorytmów Google’a mówiło się o tym od dawna. Gołym okiem było widać zależność pomiędzy czasem przyłożenia linka a ładowaniem się pełnej mocy z linka. Czyli jeżeli link jest silny i przykładamy go dziś, to nie przekaże on pełnej mocy. Będzie ona spływałą w czasie i ten czas będzie zależny od wielu czynników

💡 Ruch na stronie i % ruchu organicznego w tym ruchu jest czynnikiem rankingowym

Zależność bardzo dobrze widoczna szczególnie dla nowych stron: Gdy w początkowym jej etapie przyłożymy ruch z Google Ads domena zdobywa szybciej trust. Dodatkowo możemy do tego dołożyć Kampanie Promocyjną w Facebook Ads na Branda – Dzięki temu ludzie zaczną wyszukiwać naszego branda i to będzie dodatkowy ważny faktor

💡 Cyfry w urlach domen są negatywnym czynnikiem rankingowym

Pewnie są od tego wyjątki, ale Yandex założył sobie, że częściej spamerzy używają cyfr w nazwach domen bo te bez cyfr są już zajęte. np 9seo.pl

💡 Wiele slashów w urlu jest negatywnym czynnikiem rankingowym

Zapewne chodzi o sytuację gdy nasz końcowy adres jest za bardzo zagnieżdżony np

9seo.pl/kategorie/google/czynniki/slashe/jak-dzialaja-slashe.html

💡 Hard pessimization (aka PR=0)

O co chodzi dokładnie w tym punkcie na razie nie wiadomo.

Czym jest pesymizacja ? Też nie wiedziałęm, ale już wiem

Pesymizacja – obniżanie pozycji strony w wynikach wyszukiwarki. Zwykle występuje z powodu przeoptymalizowania strony – zapełnienia jej zbędną ilością fraz kluczowych – lub utraty części linków przychodzących.

Czyli co może oznaczać ten punkt (moja interpretacja): Jeśli jest nagłe przeoptymalizowanie strony lub duża utrata linków do ten patent obniża PageRank Twojej strony do zera.

Ale czy tak jest, dowiemy się wkrótce

💡 Stabilność Hosta ma znaczenie – Im więcej błędów 40x/50x tym gorzej

To akurat jest powszechnie znane i w Google i SEOwcy intuicyjnie pilnują by ich serwery i serwery ich klientów stały stabilnie

💡 Jest specjalny czynnik rankingowy na Plus dla Wikipedii

Nie ma co się dziwić i zapewne podobnie jest w Google. Google wsadza wikipedię w wiele wyników wyszukiwań o charakterze informacyjnym i jest to jedne z pierwszych sprawdzonych źródeł informacji i wielka pomoc przy tworzeniu grafów wiedzy

💡 Połączenie czynników reklamowych z CTR i zachowaniem użytkowników

Yandex już raz próbował wycofać się z linków jako czynnika rankingowego, ale mu się nie udało. Jest podejrzenie, że czynniki behavioralne ( czas na stronie, kliknięcie, odrzucenia) są bardziej podkreślone w Yandex niż w Google

Uważa, że korzysta z tego tak samo Google: Sam brałęm udział w 2 testach w odizolowanym środowisku gdzie podstrona z dużą aktywnością użytkownika na niej wskakiwała wyzej wynikach wyszukiwania niż strona gdzie aktywność była mała.

💡 Wiek dokumentu i jego ostatni update jest czynnikiem rankingowym

W Google widzimy to szczególnie w wynikach wyszukiwania gdzie ich cześć zarezerowana jest dla stron odświeżonych lub z nową datą publikacji. Szukająć możemy spotkać niejeden case gdy właściciel strony nadając nową datę publikacji stronie potrafił zwyskaćszybko sporo nowego ruchu.

Zachęcam do lektury artykułu:

How Google Knows if a Document is Fresh? (Determining Document Freshness)

💡 Średnia pozycja wyszukiwania dla wszystkich fraz na domenie jest czynnikiem rankingowym

Jest podejrzenie ,że w Google jest podobnie: Sam miałem 2-3 takie casy, gdzie podciągając w wynikach wyszukiwania jedną dużą kategorię na stronie, cała reszta fraz też odnotowywała zauważalne przesunięcia w górę

💡 Częstość występowania jakiegoś słowa w dokumencie i jego powiązanie z długością dokumentu jest czynnikiem rankingowym dla strony

Czyli jest tu stworzona pewna korelacja pomiędzy długością dokumentu gęstością słów. W tym wypadku niekoniecznie dłuższy dokument tekstowy oznacza lepsze pozycje

💡 Priorytet ścisły dla TR

„Priorytet ścisły dla TR – priorytet tekstowy – gdzieś w dokumencie są wszystkie słowa zapytania (i przechodzą ograniczenia kontekstowe zapytania, np. oba słowa muszą być w tym samym zdaniu”

💡 Znajdywanie się w jednym linku wszystkich słów zapytania

Możliwa interpretacja: Gdy pozycjonujemy się na „pozycjonowanie kraków” , to większą moc będzie miał link podlinkowany z anchora „pozycjonowanie kraków” niż z samego „pozycjonowanie”

💡 Obecność dokładnej frazy w nagłówku (a dokładnie w pierwszym zdaniu dokumentu).

Potwierdza się to, co dawno już zauważyliśmy – im wyżej jest umieszczony link, tym lepiej. Widać w Yandex to samo tyczy się pożądanego słowa, które pozycjonujemy. Musi być ono umieszczone wysoko w dokumencie – idealnie w pierwszym nagłówku

💡 Długość dokumentu jest czynnikiem rankingowym

📖 „Długi dokument (im dłuższy dokument, tym większa wartość współczynnika).”

💡 Dopasowanie tekstu do zapytania jest czynnikiem rankingowym

📖 „Hitweigt jest odmianą relewancji tekstowej, w której wagi wszystkich trafień są traktowane jako równe (tzn. nie są brane pod uwagę premie za tytuł i bliskość słów). Odpowiednie trafienia muszą przejść ograniczenia kreatora składni, tzn. możemy założyć, że współczynnik TRhitw wynosi 0 wtedy i tylko wtedy, gdy SoftAndOk wynosi 0”

💡 Dopasowanie strony do zapytania z konkretnego regionu

📖 „Wskazuje na dopasowanie na poziomie kraju pomiędzy regionem użytkownika a stroną internetową. Czynnik jest binarny: 1-pasuje, 0-nie pasuje.

💡 Dopasowanie spektrum tematycznego zapytania i dokumentu

„Dopasowanie spektrum tematycznego zapytania i dokumentu. Przedmiotem zapytania jest wynik”

💡 Wewnętrzne mnożniki linków

📖 „Liczba, przez którą mnożone są niektóre współczynniki linków , jeśli trafność tekstowa wynosi 0 i jest mało linków”

Co by to mogło oznaczać: W odpowiednich warunkach system mnoży niektóre współczynniki naszych linków

💡 Anchor teksty linków oraz zawartość tekstu w url linków ma znaczenie

W dokumencie widnieje wiele czynników, które na to wskazuje. Co nam to mówi ? Yandex bierze pod baczną uwagę, jakich słów używamy do linkowania

📖 „Względna częstotliwość zapytań w linkach (1 – słowa zapytania często występują w linkach, 0,3 – rzadko); dokładniej, wartość tego współczynnika jest pesymizowana pod warunkiem: TR=0 && LR=0 && (nie ma ani jednego linku ze wszystkimi słowami zapytania) && (kworum nie minęło) && (o w tekście występuje co najmniej jedna para słów zapytania”

💡 Nadawanie wagi linkom

📖 „Dla dokumentów o wysokim LR – znormalizowana istotność linku bez uwzględnienia bliskości, dla dokumentów o niskim LR 0”

Możliwa interpretacja: Jeśli dokument o niskim LR nie jest „blisko” stron o wysokim LR, to nawet jeśli strony o wysokim LR zalinkują do niego to ich linki zostaną przliczone jako „znormalizowane”

Wydaje się to być skuteczną zaporą przeciw spamowi: na logikę ,żadna mocna zaufana strona nie zalinkuje sama do nowej nieznanej strony, CHYBA że jest z nią powiązana np Link ze strony ministerstwa rolnictwa będzie miał sens do nowo powstałęj strony gminy rolniczej

💡 Liczba linków jest czynnikiem rankingowym

W tym wypadku brana jest pod uwagę sama ich ilość. O Jakości decydować będzie inny faktor

💡 Czas dodanie strony jest czynnikiem rankingowym

📖 „Czas dodania strony, więcej to starszy dokument; umieść pierwiastek z czasu odwzorowanego na przedział [0,1] tak, że 3+ lat daje 1.”

💡 Nadanie równej wagi stronom głównym i subdomenom

📖 „Jeśli jest to strona główna właściciela (najczęściej domena drugiego poziomu, np. xxxx.ru), to współczynnik wynosi 1. Dla bumelantów, gospodarzy, osobistych blogów itp. (np. Lyfjornal, narod.ru, itp.) – domeny trzeciego poziomu (takie jak xxxxx.narod.ru) również będą miały współczynnik 1.”

💡 Klikalność w URL w wynikach wyszukiwania jest czynnikiem rankigowym

📖 „Jak często dany URL jest klikany dla danego zapytania – CTR pomnożony przez współczynnik korekcyjny”

📖 „Jak często klikane są adresy URL danego domainId dla danego zapytania – CTR domainId pomnożony przez współczynnik korygujący”

I bingo! Wiele osób widziało to już dawno w Google – Jeśli jesteś wysoko wyników wyszukiwania, ale Twój url nie jest klikany, to niestety Google skoryguje Twoją pozycje. I w drugą stronę. Jeśli jesteś TOP8 w wynikach wyszukiwania, ale jesteś klikany często, bo np masz dobry Title i Decription to zostaniesz podciągnięty w wynikach

💡 Dodatkowo jeden w czynników wprost odnosi się do posiadania przez Yandex informacji o klikalności dla danej strony:

📖 „Brak informacji o klikalności dla tego adresu url dla tego żądania 1 – żądanie lub request-url nie jest w bazie klikalności, 0 – żądanie-url jest w bazie klikalności”

📖 „Dla podanego identyfikatora domeny nie ma informacji o klikalności dla tego zapytania 1 – zapytania lub właściciela zapytania nie ma w bazie kliknięć, 0 – właściciela zapytania nie ma w bazie kliknięć”

💡 Obecność reklam na stronie jest czynnikiem rankingowym

Co ciekawe Yandex osobny czynnik ma zarezerwowany dla Reklam Yandexa

💡 Uznane strony za spam / nie spam jest czynnikiem rankngowym

📖 „Klasyfikator spamu przez chipy antyspamowe uznał stronę za NIE(!) spam. Tzn. 0=spam, 1=dobry.”

💡 Występowanie par słów w zapytaniu i dokumencie jest czynnikiem rankingowym

📖 „Proste BM25 według par słów – weź wszystkie pary słów zapytania i policz liczbę ich wystąpień w tekście dokumentu. Użyj sumy wag słów jako wagi pary. Comm Nie działa, jeśli zapytanie zawiera słowo stop.”

📖 „obecność par słów w dokładnej formie”

📖 „liczba zdań, które zawierają wiele słów w dokładnej formie”

📖 „obecność słów w tytule w dokładnej formie”

📖 „obecność par wyrazów z uwzględnieniem synonimów (>=TxtPair”

💡 Odległość podstrony od strony głównej jako czynnik rankingowy

📖 „Liczba skoków adresu URL w obejściu (np. mniej – bliżej pyska, tym mniejsza wartość (0 – pysk, 1 – nie można dosięgnąć od pyska, 0 < można dosięgnąć od pyska < 1. Normalny wartość dla nasady nosa wynosi 0,0039)”

Nie wiem, czy dobrze to interpretuje, ale to by się pokrywało z posiadaną wiedzą co do zasad działania algorytmów Google;a : Im dalej oddalony adres URL os strony głównej, tym gorzej. Całość liczona w skokach, jakie musi pokonać robot skakając pod adresach.

💡 Obecność słów w synonimach w tekście, tytułach, anchorach jako czynnik rankingowy

📖 „liczba zdań, w których występuje wiele słów, z uwzględnieniem synonimów”

📖 „obecność słów w tytule, z uwzględnieniem synonimów”

💡 Jaka procentowa cześć linków jest dobra albo zła

Czyli jest algorytm, który szacuje linki jako „dobre i „złe” a inny, który oblicza ile procent jest każdego w całości

💡 Gęstość słów kluczowych w dokumencie jest czynnikiem rankingowym

📖 „TfIdf to zwykły TF*IDF według powiązań. Częstotliwość słów w referencjach jest mnożona przez odwrotność częstotliwości dokumentu i sumowana dla wszystkich słów, a następnie normalizowana do długości dokumentu.”

💡 Dokładny exact anchor linków jest czynnikiem rankingowym

💡 Uznanie stronę za spamową na podstawie automatycznej klasyfikacji

📖 „Automatyczny klasyfikator spamu Aleksiejewa, prawdopodobieństwo, że strona jest spamem (0 nie spam, 1- spam”

💡 Jakość tekstu jest czynnikiem rankingowym

📖 „Jakość tekstu. Obliczone przy użyciu dość skomplikowanego wzoru”

💡 Etykietowanie hosta jako spamu na podstawie WhoIs

📖 „Anti-spammer name karma – prawdopodobieństwo, że host jest spamem; na podstawie informacji whois”

Nie inaczej jak w Google. Ludzie związanie z afiljacją i blackhatem od dawna zmieniali / ukrywali swoje Whois / IP hosta / DNS

💡 Podział fraz na frazy zakupowe lub nie zakupowe

📖 „Komercyjność zapytania według Słownika Fraz z Directa: 0 – maksymalna komercyjność, 1 – minimalna komercyjność”

Tu będzie dopasowanie do intencji użytkownika. Jeśli ktoś wpisuje „opony” to raczej chce kupić opony niż o nich poczytać . Stąd ta fraza została dopasowana do zakupowych.

Przy niektórych frazach, gdzie nie można ich jednoznacznie dopasować do tych 2 grupo, Google serwuje nam grupy wyników wyszukiwania: np. zakupowe i informacyjne. A już dalej na podstawie zachowań użytkowników wiedzą, w którą stronę dana fraza ciągnie i powiększają daną pulę wyników

💡 Przypasowanie strony do regionu jest czynnikiem rankingowym

📖 „Oznacza zgodność między regionem wymienionym w zapytaniu a znalezionymi stronami na poziomie regionu. Czynnik jest binarny: 1-pasuje, 0-nie pasuje. „

Czyli faktor ten wymusza zgodność zapytania z wymienionym regionem np „Pozycjonowanie Kraków” a stronami zoptymalizowanymi pod dany region ( niekoniecznie muszą tam fizycznie być )

💡 Procent exact anchorów linków jest czynnikiem rankingowym

📖 „Procent linków przychodzących zawierających słowa zapytania”

💡 Określenie czy dokument jest dokumentem P*RNO

Można się tylko domyślać, że strony tak oznaczone mają pewne ograniczenia w pojawianiu się na innych wynikach wyszukiwania niż podane

💡 Procent exact form użytych w zapytaniu obecnych w tekście

Więc jeżeli ktoś wpisał: „Jakie są najlepsze opony? ” to dany czynnik mierzy, ile razy dokładnie ten zwrot wystąpi na stronie

💡 Powiązanie tematyczne strony z jakiej pochodzą linki

📖 „Trafność linków z uwzględnieniem niekomercyjności każdego linku, jakości każdego linku i tematyki”

Jeśli chodzi o Google jest podobnie: Duża ilość casów potwierdza, że lepiej aby link pochodził z podstrony powiązanej tematycznie lub chociaż był otoczony przez tekst powiązany tematycznie

💡 Długość tekstu jako czynnik rankingowy

📖”Długość tekstu strony w słowach TLen = Map(ilość słów, 1/400), gdzie Map(x, y) = xy / (1 + xy)””

Na poziomie tego czynnika nie ma preferencji, która jest lepsza / gorsza. Czynnik mówi nam ,że po prostu długość tekstu jest brana pod uwagę i najpewniej wykorzystywana w połączeniu z innymi czynnikami

💡 Język strony, z jakiej pochodzi link, zestawiony z językiem zapytania

📖”LR z dopasowaniem języka odniesienia i języka zapytania”

Funkcja ta odpowiada za uwzględnienie języka linku i zapytania przy obliczaniu trafności wyników wyszukiwania.

Czyli dla polskich stron lepiej pozyskiwać linki z polskich dokumentów

💡 Procent kliknięć w stronę w zestawieniu do wszystkich kliknięć na dane zapytanie

📖 „Stosunek liczby kliknięć na dany adres url do wszystkich kliknięć na żądanie”

Czynnik ten dotyczy stosunku liczby kliknięć w konkretny adres URL do wszystkich kliknięć w dane zapytanie. Służy do pomiaru jakości wyników wyszukiwania w wyszukiwarce Yandex.

Wnioski

Wyszukiwarka Yandex, i tak samo pewnie inne, działają w oparciu o serie algorytmów, które przeliczają niezależne czynniki na stronie. Ich znajomość będzie sporym ułatwieniem dla osób zajmujących się SEO

A co to ma wspólnego z Google? Jeśli czynniki nie są takie same, to ich logika opracowania będzie z pewnością podobna. To zaś daje nam potwierdzenie, że nie ma żadnej magii w SEO – Są tylko czynniki, które trzeba znać by wpasować się idealnie w całą siatkę algorytmów.

Wszystkie zdjęcia są własnością Christopha Cempera / https://www.facebook.com/christoph.cemper/


Kolekcja "Yandex Breach"

envisioned by Midjourney
prompted by ChatGPT using AIPRM

then tweaked the prompt again in https://prompt.noonshot.com/
to e.g. this

Yandex, hacked, breach, intrusion, cyber-attack, cybercrime, black-hat, cyber-espionage, night, darkness, shadows, moonless, starless, eerie, tense, anxious, moody, surveillance, cameras, security, hackers, computers, servers, data-breach, cyber-security, cyber-vulnerabilities, cyber-defenses, encryption, firewalls, intrusion-detection, anti-virus, malware, cyber-warfare, cyber-terrorists, cyber-criminals, night::2, darkness::2, shadows::2, moonless::2, starless::2, eerie::2, tense::2, anxious::2, moody::2, surveillance::2, cameras::2, security::2, hackers::2, computers::2, servers::2, data-breach::2, cyber-security::2, cyber-vulnerabilities::2, cyber-defenses::2, encryption::2, firewalls::2, intrusion-detection::2, anti-virus::2, malware::2, cyber-warfare::2, cyber-terrorists::2, cyber-criminals::2, glowing::1 frida kahlo::1 amber::2 mint color::1.9 bronze::2.2 --quality 2

3 KOMENTARZE

Szeruj 30 stycznia, 2023 at 1:15 pm

Rafał, fajnie rozpisane czynniki Yandex-a w połączeniu z hipotezami Google. Napisałeś, że „Gdy w początkowym jej etapie przyłożymy ruch z Google Ads domena zdobywa szybciej trust.”. Czy możesz powiedzieć coś więcej? Jeżeli dobrze rozumiem, to warto na start uruchomić kampanię Ads/FB, bo to da boosta SEO?

Odpowiedz
- Rafał Borowiec 31 stycznia, 2023 at 5:49 am
  
  Hej. Tak, w obsługiwanych przeze mnie case’ach, tak właśnie było.
  Zwłaszcza jeśli chodziło o nowe strony.
  Wtedy o wiele wyraźniej było widać tę korelację.
  Przyłożenie ruchu z kanałów płatnych daje mocny czynnik behawioralny na domenie plus ludzie z czasem zaczynają w Google szukać Twojej strony już po brandzie – a to jest już pewnym faktorem rankingowym Google;a
  
  Odpowiedz
Dago 31 stycznia, 2023 at 8:30 pm

Również znam takie case’y organoleptycznie. Czasem nawet świeża domena potrafi wskoczyć na money keywords w organicu, jeśli masz wyjątkowo udaną kampanie Gadsową 🙂

Odpowiedz