Tajemný PageRank aneb

Jak Google porazil AltaVistu axAdresa www.google.com je bezesporu jednou z nejznámějších na celém internetu a není to


Jak Google porazil AltaVistu
axAdresa www.google.com je bezesporu jednou z nejznámějších na celém internetu
a není to žádná náhoda. Relevancí svých výsledků totiž Google stále překonává
konkurenci a za několik málo let si mezi vyhledávači vydobyl výsadní postavení
především jednoduchostí i širokou škálou podpůrných služeb a nástrojů.
Kdo vlastně stojí za tímto unikátním projektem, jedním z mála, který úspěšně
přečkal i krach internetových firem na přelomu tisíciletí?
Google založili původně jen dva lidé, spolužáci Larry Page a Sergey Brin ze
Stanfordské univerzity. Vyhledávač vznikl jako jeden mnoha produktů studentské
kreativity v kalifornském Silicon Valley. Samotný název je převzat z knihy
Mathematics and the Imagination od Edwarda Kasnera a Jamese Newmana, ve které
matematický termín "googol" označoval číslo vyjádřené jedničkou následovanou
100 nulami. Page s Brinem si jej údajně vybrali pro vyjádření svého záměru
vytvořit systém, který by organizoval už tehdy nesmírné množství informací
nacházejících se na internetu.
Klíčové je právě sloveso "organizoval" nejde jen o naplnění nějaké obří
databáze, ale spíše o způsob, jak se s touto databází bude následně pracovat a
jak data snadno zpřístupnit uživatelům. Google samozřejmě nebyl prvním
fulltextovým prohledávačem, Page s Brinem nicméně překonali svoji zavedenou
konkurenci (např. AltaVista, HotBot...) a posléze vybudovali službu, která si
svoji dominantní pozici udržuje dosud. V současnosti Google indexuje více než
tři miliardy stránek.

Geniální PageRank
Základní kámen úspěchu Googlu spočívá v patentované technologii, na které Page
a Brin postavili schopnost vyhledávače vyznat se v miliardách vzájemně
pospojovaných stránek. Jejich objev nese jméno PageRank. Ačkoliv v současnosti
již Google zdaleka nestojí a nepadá s PageRankem a využití i detailní princip
této utajované technologie jsou stále jen předmětem spekulací, něco o ní přece
jen známo je. Budoucí úspěch Googlu určilo na počátku nejspíš pouze několik
základních pravidel.
Systém se postupně komplikoval. Motivací bylo jak vylepšení přesnosti a
funkcionality vyhledávače, tak i probíhající závody ve zbrojení mezi Googlem a
těmi, kdo chtěli jeho metody nějak obelstít například spammeři či provozovatelé
pornografických stránek se snažili dostat do popředí vracených výsledků pro
nejčastěji zadávaná slova. Nemusí však jít jen o podobné "podezřelé" aktivity,
i provozovatelé zcela seriózních stránek se samozřejmě snažili objevovat se ve
výpisech před svou konkurencí. Za tímto účelem dokonce vzniklo celé odvětví
tzv. SEM (Search Engine Marketing). Nicméně zde zůstává přece jen jeden rozdíl
pro prohledávání a řazení webových stránek byl Google navržen, další
"nestandardní" způsoby jeho využití tvůrci technologie samozřejmě neplánovali.
Popsaný souboj pochopitelně nekončí. Se stále větší popularitou Googlu naopak
algoritmy, hodnotící relevanci stránek, doznaly mnohých vylepšení, stejně tak
procházela evolučním vývojem např. i schopnost spammerů a hackerů využívat
Google pro své vlastní potřeby.

Princip řazení
Základní princip PageRanku vypadá na první pohled zcela samozřejmě a
intuitivně, avšak v době, kdy Larry Page a Sergey Brin svůj výtvor uváděli do
chodu, šlo o dosti převratný koncept.
Vyhledávače před příchodem Googlu totiž vypisované stránky řadily jednoduše buď
víceméně náhodně, nebo se spoléhaly na elementární úvahu, že čím častější je
výskyt hledaných slov na určité stránce, tím pravděpodobněji tato stránka
obsahuje právě to, co člověk pokládající dotaz hledá.
Výsledky vyhledávání, tak jak je nabízela např. AltaVista, ale ne vždy splnily
očekávání uživatele. Následné procházení někdy až stovek či tisíců stránek
seřazených ve výsledku vyhledávání však lidé brali jako nutné zlo vyplývající
prostě z toho, že internet je tak strašně rozsáhlý.

Hodnocení odkazů
Google naproti tomu přistoupil k hodnocení stránek jinak: význačnou roli v jeho
algoritmech hraje fakt, kolik a jakých odkazů na posuzovanou stránku vede z
jiných stránek. Iterativně řečeno, hodnota PageRanku představuje součet
PageRanků, které jsou stránce předány ze stránek, které na ni odkazují. To je
ovšem poněkud kostrbatá definice, takže nejlepší bude uvést si příklad: Pokud
má stránka A PageRank 5/10 a obsahuje 50 odkazů, pak každý odkaz předá cílové
stránce právě padesátinu PageRanku zdrojové stránky, tedy A50 = 0,1/10.
PageRank cílové stránky B se získá součtem všech PageRanků předaných s odkazy.
Aby cílová stránka B získala také PageRank 5/10, muselo by na ni vést padesát
odkazů s PageRankem 0,1/10. Výše PageRanku přitom nijak nesouvisí s obsahem
stránek (výjimkou jsou zřejmě diskvalifikační body, kterými se "oceňuje" snaha
vyhledávač nějak ošidit).
Při vlastním vyhledávání se Google řídí hlavně výskyty zadaných slov na
klíčových pozicích stránky (pořád se samozřejmě jedná o vyhledávač). PageRank
přichází na řadu v další fázi, tedy při řazení výsledků. Základní předpoklad
zní, že čím více kvalitních zdrojů na danou stránku odkazuje, tím kvalitnější
je i její obsah. Tato jednoduchá úvaha má svůj původ na akademické půdě, ze
které autoři Googlu pocházejí: citační index vědeckých publikací je založen na
faktu, že čím častěji nějaký vědec cituje určitou vědeckou práci, tím
závažnější význam tato publikace na vědecký obor má.
Ve své podstatě je zvolená metoda obtížně zfalšovatelná, neboť jen málokdo by
chtěl odkazovat na nekvalitní stránky a jen obtížně můžete majitele těchto
stránek přesvědčit, aby odkazovali právě na vás. Nejčastější technikou spammerů
je nicméně právě pokus o falešné zdání kvality to lze provést např. založením
mnoha desítek či stovek webových stránek, odkazujících na jednu adresu (odborně
se takovýmto umělým odkazům říká "linkové farmy"). Google je však při podobných
pokusech nesmiřitelný a daná stránka je zpravidla rychle z indexu vyhledávače
úplně odstraněna.

Jak se přiohýbá Google
Jak už ale bylo uvedeno, PageRank v dnešní podobě není ani tak jeden konkrétní
algoritmus výpočtu jednoho čísla, podle kterého se seřadí stránky ve výpisu,
ale spíše velikou sadou různých postupů, z nichž ten původní však hraje stále
dosti podstatnou roli.
S tím, jak Google nabíral na vyhledávací a obchodní síle, si však více lidí
povšimlo druhého aspektu jeho tolik ceněného PageRanku. Kromě linkovacích farem
existuje totiž ještě (přinejmenším) jedna možnost, jak "protlačit" stránku do
čela výsledkové listiny a tentokrát je proti ní Google více bezmocný. Spočívá v
koordinované snaze mnoha desítek či stovek majitelů stránek, odkazujících pod
určitým klíčovým slovem na jeden zdroj. Nejčastěji tuto činnost provozují
autoři blogů, které jsou samotné často Googlem vysoce hodnoceny pro značnou
vzájemnou citovanost bloggerů navzájem. Jak odkazů přibývá, Google zvyšuje
PageRank cílové stránky pro dané klíčové slovo, až se po zadání dotazu s tímto
slovem ocitne stránka na prvních místech.
Popsaný postup vešel ve známost pod pojmem Google bombing (bombardování
Googlem, výraz souvisí s extrémní návštěvností "bombardované" stránky lidmi,
kteří ji díky Googlu našli pro hledané slovo na předním místě, ačkoliv jinak by
na ni nepřišli). Ptáte se, proč by to bloggeři dělali? Inu, jak už to u
skupinového snažení vysoké intenzity bývá, motivací je často legrace na cizí
účet. Na webu se takto často "šroubují" stránky konkurenčních či nevítaných
skupin či jedinců cílem je, aby se objevily na prvních místech výpisů pro
hanlivé či posměšné výrazy.
Výjimkou však nebývá ani čím dál častější použití Google bombingu pro komerční
či politické účely. Není tomu tak dávno, co například jistá skupina bloggerů
dostala na první místa nalezených adres životopis G. W. Bushe pro jisté
urážlivé slovo. Odpovědí Bushova týmu bylo prohlášení, že nyní se každý jeho
člen bude věnovat obdobnému úsilí ve snaze vylepšit prezidentův obraz.
Jedna firma také může (pokud k tomu ovšem napře své úsilí) tímto způsobem
zkusit způsobit zavalení serveru své konkurence který bude přitom zaplaven
návštěvníky rekrutujícími se předem zvoleným způsobem z Googlu a současně
nepřístupný pro "skutečné" zákazníky.
Samotní představitelé Googlu na výtky o snadné zneužitelnosti Google bombingu
zpravidla reagují prohlášením, že jde o rys vyhledávače, který je zatím
zneužitelný jen poměrně obtížně (= pracně), a jeho náprava tudíž není
momentálně v programu vývojářů.

Pozornost hackerů
Jiným způsobem, využívajícím potenciál Googlu k původně nezamýšleným účelům,
představuje například postup, o kterém informoval v loňském roce magazín Wired.
Google tehdy zneužili hackeři, když jeho vyhledávací schopnosti zapojili do
úkolu nalezení stránek s nezabezpečeným webovým databázovým rozhraním.
V zásadě se jedná o elegantní myšlenku: Proč se snažit v záplavě webů najít
ten, který má otevřený přístup k databázi, když taková stránka dost možná bude
indexována Googlem? Fráze "Select database to view" v době odhalení těchto
praktik vracela kolem dvou stovek odkazů, vedoucích na interface aplikace
FileMaker Pro, jednoduchého nástroje pro přístup k databázím prostřednictvím
webového prohlížeče.
Byla by to snad i zábavná příhoda, kdyby ovšem některé z těchto cest nevedly ke
zdrojům citlivých informací. Kromě osobních údajů (včetně adres, telefonních
čísel a podrobných životopisů) několika set lektorů firmy Apple tak uniklo ven
i zhruba 5 500 záznamů o pacientech neurochirurgie fakultní nemocnice Drexel
University. Databáze byla totiž "chráněna" heslem, shodným s názvem databáze. I
po rychlé nápravě ze strany správce zůstává otázka, kolik podobných databází
zůstává otevřeno stejným či jiným pokusům o snadný průnik.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.