26 stycznia wyciekły zewnętrzne repozytoria Yandex.ru. Dla SEOwców najbardziej interesującym aspektem tego wycieku jest lista 1922 czynników rankingowych w wyszukiwarce Yandex
Aby nie powielać artykułów już powstałych i opisujących całe zajście, skoncentruje się tu tylko na Analizie czynników rankingowych
📌 O całej historii wycieku możecie poczytać tutaj:
- Yandex ‘leak’ reveals 1,922 search ranking factors – Search Engine Land
- YANDEX SERVICES SOURCE CODE LEAK – arseniyshestakov.com
📌 Całe repozytorium dostępne jest tutaj:
- Repozytorium całego wycieku na GitHub
- Oryginalna lista czynników rankingowych Yandex do pobrania z Dropboxa
📌 W ramach wstępu polecam też dobre artykuły, które omawiają temat całościowo:
- Yandex.ru – wyciek kodu źródłowego i znane czynniki rankingowe – Szymon Słowik
- Lista czynników rankingowych Yandexa dotyczących linków – lista z objaśnieniem i wnioskami – Michał Masternak
📌 Zestawienie przetłumaczonych na język polski czynników rankingowych
📌 Przydatne zestawienie wszystkich czynników z komantarzem ChatGPT
Gotowy zanurzyć się w świat czynników? Zaczynamy…
Informacja: To tylko cześć z 1922 czynników: Wylistowałem te, które uważałem za ważne i były dla mnie jakkolwiek zrozumiałe
Co mają wspólnego czynniki rankingowe Yandexa z Google?
Biorąc pod uwagę kierunek kopiowania rozwiązań Google’a obrany przez Yandex możemy uznać, że jakiejś części te systemy są zbieżne. Jakie fakty za tym przemawiają:
- Logika wyszukiwań i wyników wydaje się podobna
- W Yandex pracują ex pracownicy Gogle;a
- Przyglądając się rosyjskim forom white hat widzimy ,że metody stosowane przez SEOwców są podobne do tych jakie stosują SEOwcy w Google
- Google ma RankBraina a Yandex… MatrixNet
- Google i Yandex żywają razem czynnika PageRank
- …i najważniejsze: Jeśli dokładnie wczytasz się w dokumentacje czynników rankingowych zauważysz, że potwierdzają one Twoje przypuszczenia na temat działania algorytmów Google np. „Wiek Linków”
Lista czynników rankingowych Yandex.ru
Alex Buraks I Dominic Woodman wykonali już częściowo zadanie analizy Na Twitterze
Link: 💬 Alex Buraks
Lista kodu źródłowego czynników rankingowych podanych przez Alexa: 📌 LISTA
Przydatne narzędzie do eksploracji: 📌 Yandex Search Ranking Factor Explorer by Rob Ousbey
💡 Page Rank jest czynnikiem rankingowym
W Google jest to samo, tylko na jakimś etapie straciliśmy dostęp do tych danych, które kiedyś udostępniał Google. Natomiast w środowisku SEO panuje silne przekonanie, że te mechanizmy działają dalej, może nie sa one już tak mocno determinujące moc domeny i pewnie wchodzą w skład bardziej rozbudowanych algorytmów
💡 Wiek linków jest czynnikiem rankingowym
W kontekście działania algorytmów Google’a mówiło się o tym od dawna. Gołym okiem było widać zależność pomiędzy czasem przyłożenia linka a ładowaniem się pełnej mocy z linka. Czyli jeżeli link jest silny i przykładamy go dziś, to nie przekaże on pełnej mocy. Będzie ona spływałą w czasie i ten czas będzie zależny od wielu czynników
💡 Ruch na stronie i % ruchu organicznego w tym ruchu jest czynnikiem rankingowym
Zależność bardzo dobrze widoczna szczególnie dla nowych stron: Gdy w początkowym jej etapie przyłożymy ruch z Google Ads domena zdobywa szybciej trust. Dodatkowo możemy do tego dołożyć Kampanie Promocyjną w Facebook Ads na Branda – Dzięki temu ludzie zaczną wyszukiwać naszego branda i to będzie dodatkowy ważny faktor
💡 Cyfry w urlach domen są negatywnym czynnikiem rankingowym
Pewnie są od tego wyjątki, ale Yandex założył sobie, że częściej spamerzy używają cyfr w nazwach domen bo te bez cyfr są już zajęte. np 9seo.pl
💡 Wiele slashów w urlu jest negatywnym czynnikiem rankingowym
Zapewne chodzi o sytuację gdy nasz końcowy adres jest za bardzo zagnieżdżony np
9seo.pl/kategorie/google/czynniki/slashe/jak-dzialaja-slashe.html
💡 Hard pessimization (aka PR=0)
O co chodzi dokładnie w tym punkcie na razie nie wiadomo.
Czym jest pesymizacja ? Też nie wiedziałęm, ale już wiem
Pesymizacja – obniżanie pozycji strony w wynikach wyszukiwarki. Zwykle występuje z powodu przeoptymalizowania strony – zapełnienia jej zbędną ilością fraz kluczowych – lub utraty części linków przychodzących.
Czyli co może oznaczać ten punkt (moja interpretacja): Jeśli jest nagłe przeoptymalizowanie strony lub duża utrata linków do ten patent obniża PageRank Twojej strony do zera.
Ale czy tak jest, dowiemy się wkrótce
💡 Stabilność Hosta ma znaczenie – Im więcej błędów 40x/50x tym gorzej
To akurat jest powszechnie znane i w Google i SEOwcy intuicyjnie pilnują by ich serwery i serwery ich klientów stały stabilnie
💡 Jest specjalny czynnik rankingowy na Plus dla Wikipedii
Nie ma co się dziwić i zapewne podobnie jest w Google. Google wsadza wikipedię w wiele wyników wyszukiwań o charakterze informacyjnym i jest to jedne z pierwszych sprawdzonych źródeł informacji i wielka pomoc przy tworzeniu grafów wiedzy
💡 Połączenie czynników reklamowych z CTR i zachowaniem użytkowników
Yandex już raz próbował wycofać się z linków jako czynnika rankingowego, ale mu się nie udało. Jest podejrzenie, że czynniki behavioralne ( czas na stronie, kliknięcie, odrzucenia) są bardziej podkreślone w Yandex niż w Google
Uważa, że korzysta z tego tak samo Google: Sam brałęm udział w 2 testach w odizolowanym środowisku gdzie podstrona z dużą aktywnością użytkownika na niej wskakiwała wyzej wynikach wyszukiwania niż strona gdzie aktywność była mała.
💡 Wiek dokumentu i jego ostatni update jest czynnikiem rankingowym
W Google widzimy to szczególnie w wynikach wyszukiwania gdzie ich cześć zarezerowana jest dla stron odświeżonych lub z nową datą publikacji. Szukająć możemy spotkać niejeden case gdy właściciel strony nadając nową datę publikacji stronie potrafił zwyskaćszybko sporo nowego ruchu.
Zachęcam do lektury artykułu:
How Google Knows if a Document is Fresh? (Determining Document Freshness)
💡 Średnia pozycja wyszukiwania dla wszystkich fraz na domenie jest czynnikiem rankingowym
Jest podejrzenie ,że w Google jest podobnie: Sam miałem 2-3 takie casy, gdzie podciągając w wynikach wyszukiwania jedną dużą kategorię na stronie, cała reszta fraz też odnotowywała zauważalne przesunięcia w górę
💡 Częstość występowania jakiegoś słowa w dokumencie i jego powiązanie z długością dokumentu jest czynnikiem rankingowym dla strony
Czyli jest tu stworzona pewna korelacja pomiędzy długością dokumentu gęstością słów. W tym wypadku niekoniecznie dłuższy dokument tekstowy oznacza lepsze pozycje
💡 Priorytet ścisły dla TR
„Priorytet ścisły dla TR – priorytet tekstowy – gdzieś w dokumencie są wszystkie słowa zapytania (i przechodzą ograniczenia kontekstowe zapytania, np. oba słowa muszą być w tym samym zdaniu”
💡 Znajdywanie się w jednym linku wszystkich słów zapytania
Możliwa interpretacja: Gdy pozycjonujemy się na „pozycjonowanie kraków” , to większą moc będzie miał link podlinkowany z anchora „pozycjonowanie kraków” niż z samego „pozycjonowanie”
💡 Obecność dokładnej frazy w nagłówku (a dokładnie w pierwszym zdaniu dokumentu).
Potwierdza się to, co dawno już zauważyliśmy – im wyżej jest umieszczony link, tym lepiej. Widać w Yandex to samo tyczy się pożądanego słowa, które pozycjonujemy. Musi być ono umieszczone wysoko w dokumencie – idealnie w pierwszym nagłówku
💡 Długość dokumentu jest czynnikiem rankingowym
📖 „Długi dokument (im dłuższy dokument, tym większa wartość współczynnika).”
💡 Dopasowanie tekstu do zapytania jest czynnikiem rankingowym
📖 „Hitweigt jest odmianą relewancji tekstowej, w której wagi wszystkich trafień są traktowane jako równe (tzn. nie są brane pod uwagę premie za tytuł i bliskość słów). Odpowiednie trafienia muszą przejść ograniczenia kreatora składni, tzn. możemy założyć, że współczynnik TRhitw wynosi 0 wtedy i tylko wtedy, gdy SoftAndOk wynosi 0”
💡 Dopasowanie strony do zapytania z konkretnego regionu
📖 „Wskazuje na dopasowanie na poziomie kraju pomiędzy regionem użytkownika a stroną internetową. Czynnik jest binarny: 1-pasuje, 0-nie pasuje.
💡 Dopasowanie spektrum tematycznego zapytania i dokumentu
„Dopasowanie spektrum tematycznego zapytania i dokumentu. Przedmiotem zapytania jest wynik”
💡 Wewnętrzne mnożniki linków
📖 „Liczba, przez którą mnożone są niektóre współczynniki linków , jeśli trafność tekstowa wynosi 0 i jest mało linków”
Co by to mogło oznaczać: W odpowiednich warunkach system mnoży niektóre współczynniki naszych linków
💡 Anchor teksty linków oraz zawartość tekstu w url linków ma znaczenie
W dokumencie widnieje wiele czynników, które na to wskazuje. Co nam to mówi ? Yandex bierze pod baczną uwagę, jakich słów używamy do linkowania
📖 „Względna częstotliwość zapytań w linkach (1 – słowa zapytania często występują w linkach, 0,3 – rzadko); dokładniej, wartość tego współczynnika jest pesymizowana pod warunkiem: TR=0 && LR=0 && (nie ma ani jednego linku ze wszystkimi słowami zapytania) && (kworum nie minęło) && (o w tekście występuje co najmniej jedna para słów zapytania”
💡 Nadawanie wagi linkom
📖 „Dla dokumentów o wysokim LR – znormalizowana istotność linku bez uwzględnienia bliskości, dla dokumentów o niskim LR 0”
Możliwa interpretacja: Jeśli dokument o niskim LR nie jest „blisko” stron o wysokim LR, to nawet jeśli strony o wysokim LR zalinkują do niego to ich linki zostaną przliczone jako „znormalizowane”
Wydaje się to być skuteczną zaporą przeciw spamowi: na logikę ,żadna mocna zaufana strona nie zalinkuje sama do nowej nieznanej strony, CHYBA że jest z nią powiązana np Link ze strony ministerstwa rolnictwa będzie miał sens do nowo powstałęj strony gminy rolniczej
💡 Liczba linków jest czynnikiem rankingowym
W tym wypadku brana jest pod uwagę sama ich ilość. O Jakości decydować będzie inny faktor
💡 Czas dodanie strony jest czynnikiem rankingowym
📖 „Czas dodania strony, więcej to starszy dokument; umieść pierwiastek z czasu odwzorowanego na przedział [0,1] tak, że 3+ lat daje 1.”
💡 Nadanie równej wagi stronom głównym i subdomenom
📖 „Jeśli jest to strona główna właściciela (najczęściej domena drugiego poziomu, np. xxxx.ru), to współczynnik wynosi 1. Dla bumelantów, gospodarzy, osobistych blogów itp. (np. Lyfjornal, narod.ru, itp.) – domeny trzeciego poziomu (takie jak xxxxx.narod.ru) również będą miały współczynnik 1.”
💡 Klikalność w URL w wynikach wyszukiwania jest czynnikiem rankigowym
📖 „Jak często dany URL jest klikany dla danego zapytania – CTR pomnożony przez współczynnik korekcyjny”
📖 „Jak często klikane są adresy URL danego domainId dla danego zapytania – CTR domainId pomnożony przez współczynnik korygujący”
I bingo! Wiele osób widziało to już dawno w Google – Jeśli jesteś wysoko wyników wyszukiwania, ale Twój url nie jest klikany, to niestety Google skoryguje Twoją pozycje. I w drugą stronę. Jeśli jesteś TOP8 w wynikach wyszukiwania, ale jesteś klikany często, bo np masz dobry Title i Decription to zostaniesz podciągnięty w wynikach
💡 Dodatkowo jeden w czynników wprost odnosi się do posiadania przez Yandex informacji o klikalności dla danej strony:
📖 „Brak informacji o klikalności dla tego adresu url dla tego żądania 1 – żądanie lub request-url nie jest w bazie klikalności, 0 – żądanie-url jest w bazie klikalności”
📖 „Dla podanego identyfikatora domeny nie ma informacji o klikalności dla tego zapytania 1 – zapytania lub właściciela zapytania nie ma w bazie kliknięć, 0 – właściciela zapytania nie ma w bazie kliknięć”
💡 Obecność reklam na stronie jest czynnikiem rankingowym
Co ciekawe Yandex osobny czynnik ma zarezerwowany dla Reklam Yandexa
💡 Uznane strony za spam / nie spam jest czynnikiem rankngowym
📖 „Klasyfikator spamu przez chipy antyspamowe uznał stronę za NIE(!) spam. Tzn. 0=spam, 1=dobry.”
💡 Występowanie par słów w zapytaniu i dokumencie jest czynnikiem rankingowym
📖 „Proste BM25 według par słów – weź wszystkie pary słów zapytania i policz liczbę ich wystąpień w tekście dokumentu. Użyj sumy wag słów jako wagi pary. Comm Nie działa, jeśli zapytanie zawiera słowo stop.”
📖 „obecność par słów w dokładnej formie”
📖 „liczba zdań, które zawierają wiele słów w dokładnej formie”
📖 „obecność słów w tytule w dokładnej formie”
📖 „obecność par wyrazów z uwzględnieniem synonimów (>=TxtPair”
💡 Odległość podstrony od strony głównej jako czynnik rankingowy
📖 „Liczba skoków adresu URL w obejściu (np. mniej – bliżej pyska, tym mniejsza wartość (0 – pysk, 1 – nie można dosięgnąć od pyska, 0 < można dosięgnąć od pyska < 1. Normalny wartość dla nasady nosa wynosi 0,0039)”
Nie wiem, czy dobrze to interpretuje, ale to by się pokrywało z posiadaną wiedzą co do zasad działania algorytmów Google;a : Im dalej oddalony adres URL os strony głównej, tym gorzej. Całość liczona w skokach, jakie musi pokonać robot skakając pod adresach.
💡 Obecność słów w synonimach w tekście, tytułach, anchorach jako czynnik rankingowy
📖 „liczba zdań, w których występuje wiele słów, z uwzględnieniem synonimów”
📖 „obecność słów w tytule, z uwzględnieniem synonimów”
💡 Jaka procentowa cześć linków jest dobra albo zła
Czyli jest algorytm, który szacuje linki jako „dobre i „złe” a inny, który oblicza ile procent jest każdego w całości
💡 Gęstość słów kluczowych w dokumencie jest czynnikiem rankingowym
📖 „TfIdf to zwykły TF*IDF według powiązań. Częstotliwość słów w referencjach jest mnożona przez odwrotność częstotliwości dokumentu i sumowana dla wszystkich słów, a następnie normalizowana do długości dokumentu.”
💡 Dokładny exact anchor linków jest czynnikiem rankingowym
💡 Uznanie stronę za spamową na podstawie automatycznej klasyfikacji
📖 „Automatyczny klasyfikator spamu Aleksiejewa, prawdopodobieństwo, że strona jest spamem (0 nie spam, 1- spam”
💡 Jakość tekstu jest czynnikiem rankingowym
📖 „Jakość tekstu. Obliczone przy użyciu dość skomplikowanego wzoru”
💡 Etykietowanie hosta jako spamu na podstawie WhoIs
📖 „Anti-spammer name karma – prawdopodobieństwo, że host jest spamem; na podstawie informacji whois”
Nie inaczej jak w Google. Ludzie związanie z afiljacją i blackhatem od dawna zmieniali / ukrywali swoje Whois / IP hosta / DNS
💡 Podział fraz na frazy zakupowe lub nie zakupowe
📖 „Komercyjność zapytania według Słownika Fraz z Directa: 0 – maksymalna komercyjność, 1 – minimalna komercyjność”
Tu będzie dopasowanie do intencji użytkownika. Jeśli ktoś wpisuje „opony” to raczej chce kupić opony niż o nich poczytać . Stąd ta fraza została dopasowana do zakupowych.
Przy niektórych frazach, gdzie nie można ich jednoznacznie dopasować do tych 2 grupo, Google serwuje nam grupy wyników wyszukiwania: np. zakupowe i informacyjne. A już dalej na podstawie zachowań użytkowników wiedzą, w którą stronę dana fraza ciągnie i powiększają daną pulę wyników
💡 Przypasowanie strony do regionu jest czynnikiem rankingowym
📖 „Oznacza zgodność między regionem wymienionym w zapytaniu a znalezionymi stronami na poziomie regionu. Czynnik jest binarny: 1-pasuje, 0-nie pasuje. „
Czyli faktor ten wymusza zgodność zapytania z wymienionym regionem np „Pozycjonowanie Kraków” a stronami zoptymalizowanymi pod dany region ( niekoniecznie muszą tam fizycznie być )
💡 Procent exact anchorów linków jest czynnikiem rankingowym
📖 „Procent linków przychodzących zawierających słowa zapytania”
💡 Określenie czy dokument jest dokumentem P*RNO
Można się tylko domyślać, że strony tak oznaczone mają pewne ograniczenia w pojawianiu się na innych wynikach wyszukiwania niż podane
💡 Procent exact form użytych w zapytaniu obecnych w tekście
Więc jeżeli ktoś wpisał: „Jakie są najlepsze opony? ” to dany czynnik mierzy, ile razy dokładnie ten zwrot wystąpi na stronie
💡 Powiązanie tematyczne strony z jakiej pochodzą linki
📖 „Trafność linków z uwzględnieniem niekomercyjności każdego linku, jakości każdego linku i tematyki”
Jeśli chodzi o Google jest podobnie: Duża ilość casów potwierdza, że lepiej aby link pochodził z podstrony powiązanej tematycznie lub chociaż był otoczony przez tekst powiązany tematycznie
💡 Długość tekstu jako czynnik rankingowy
📖”Długość tekstu strony w słowach TLen = Map(ilość słów, 1/400), gdzie Map(x, y) = xy / (1 + xy)””
Na poziomie tego czynnika nie ma preferencji, która jest lepsza / gorsza. Czynnik mówi nam ,że po prostu długość tekstu jest brana pod uwagę i najpewniej wykorzystywana w połączeniu z innymi czynnikami
💡 Język strony, z jakiej pochodzi link, zestawiony z językiem zapytania
📖”LR z dopasowaniem języka odniesienia i języka zapytania”
Funkcja ta odpowiada za uwzględnienie języka linku i zapytania przy obliczaniu trafności wyników wyszukiwania.
Czyli dla polskich stron lepiej pozyskiwać linki z polskich dokumentów
💡 Procent kliknięć w stronę w zestawieniu do wszystkich kliknięć na dane zapytanie
📖 „Stosunek liczby kliknięć na dany adres url do wszystkich kliknięć na żądanie”
Czynnik ten dotyczy stosunku liczby kliknięć w konkretny adres URL do wszystkich kliknięć w dane zapytanie. Służy do pomiaru jakości wyników wyszukiwania w wyszukiwarce Yandex.
Wnioski
Wyszukiwarka Yandex, i tak samo pewnie inne, działają w oparciu o serie algorytmów, które przeliczają niezależne czynniki na stronie. Ich znajomość będzie sporym ułatwieniem dla osób zajmujących się SEO
A co to ma wspólnego z Google? Jeśli czynniki nie są takie same, to ich logika opracowania będzie z pewnością podobna. To zaś daje nam potwierdzenie, że nie ma żadnej magii w SEO – Są tylko czynniki, które trzeba znać by wpasować się idealnie w całą siatkę algorytmów.
Wszystkie zdjęcia są własnością Christopha Cempera / https://www.facebook.com/christoph.cemper/
Kolekcja "Yandex Breach"
envisioned by Midjourney
prompted by ChatGPT using AIPRM
then tweaked the prompt again in https://prompt.noonshot.com/
to e.g. this
Yandex, hacked, breach, intrusion, cyber-attack, cybercrime, black-hat, cyber-espionage, night, darkness, shadows, moonless, starless, eerie, tense, anxious, moody, surveillance, cameras, security, hackers, computers, servers, data-breach, cyber-security, cyber-vulnerabilities, cyber-defenses, encryption, firewalls, intrusion-detection, anti-virus, malware, cyber-warfare, cyber-terrorists, cyber-criminals, night::2, darkness::2, shadows::2, moonless::2, starless::2, eerie::2, tense::2, anxious::2, moody::2, surveillance::2, cameras::2, security::2, hackers::2, computers::2, servers::2, data-breach::2, cyber-security::2, cyber-vulnerabilities::2, cyber-defenses::2, encryption::2, firewalls::2, intrusion-detection::2, anti-virus::2, malware::2, cyber-warfare::2, cyber-terrorists::2, cyber-criminals::2, glowing::1 frida kahlo::1 amber::2 mint color::1.9 bronze::2.2 --quality 2
Rafał, fajnie rozpisane czynniki Yandex-a w połączeniu z hipotezami Google. Napisałeś, że „Gdy w początkowym jej etapie przyłożymy ruch z Google Ads domena zdobywa szybciej trust.”. Czy możesz powiedzieć coś więcej? Jeżeli dobrze rozumiem, to warto na start uruchomić kampanię Ads/FB, bo to da boosta SEO?
Hej. Tak, w obsługiwanych przeze mnie case’ach, tak właśnie było.
Zwłaszcza jeśli chodziło o nowe strony.
Wtedy o wiele wyraźniej było widać tę korelację.
Przyłożenie ruchu z kanałów płatnych daje mocny czynnik behawioralny na domenie plus ludzie z czasem zaczynają w Google szukać Twojej strony już po brandzie – a to jest już pewnym faktorem rankingowym Google;a
Również znam takie case’y organoleptycznie. Czasem nawet świeża domena potrafi wskoczyć na money keywords w organicu, jeśli masz wyjątkowo udaną kampanie Gadsową 🙂