Zkuste polapit kapku informací z bezedné pavučiny

Vyhledávání informací na Internetu se od svých počátků opravdu výrazně změnilo, v dnešní době již asi téměř ...


Vyhledávání informací na Internetu se od svých počátků opravdu výrazně změnilo,
v dnešní době již asi téměř nikdo nepostaví svůj prohledávač na kdysi tak
populárním programu grep. Informací je totiž příliš mnoho a zřejmě i slovutný
anglický detektiv by měl hodně problémů při hledání "pachatele" na této stále
se zvětšující pavučině.
A to je zřejmě ten největší problém, se kterým se dnešní Sherlockové při
hledání odpovědi na své otázky potýkají. Počet informací je tak obrovský, že
dokonce ani současné největší světové vyhledávače nedokáží pojmout všechna
dostupná data, i když se některé opravdu snaží.
A právě ono snažení je obsahem dnešního Tématu týdne. Podíváme se i na některé
speciality, jako je např. Google.com nebo DirectHit.com. Třeba to bude
rozhodující inspirace pro vznik vašeho nového vyhledávače, vždyť např. jeden z
největších Fast je z Norska.
Čímpak to
jen najdu?
Problém hledání informací na Internetu je téměř stejně starý jako samotný Web.
Na co je vám totiž jistota, že někde daná informace existuje, když ji
nedokážete najít?
A právě proto vznikly vyhledávače, které se snaží najít surfařům cestu k jim
požadovaným informacím. V současné době se dají najít dva hlavní proudy
adresáře a indexy. Tyto 2 cesty pak doplňují tzv. smíšené vyhledávací služby a
na obou druzích závislé metasearch servery.
Prvním případem jsou tzv. adresáře neboli anglicky directories, což jsou
vlastně hypertextové seznamy WWW adres, které jsou hierarchicky uspořádané do
kategorií. O plnění těchto kategorií se většinou starají zaměstnanci nebo
přispěvatelé daného Webu. Druhým případem jsou indexy, tedy ty opravdové search
engines, které se snaží vše řešit hrubou silou a jejich moc spočívá hlavně v co
největším počtu prohlédnutých a zindexovaných stránek.
Vše pak doplňují smíšené vyhledávače, které se snaží kombinovat předchozí
možnosti dohromady, často s velice různorodým výsledkem a tzv. metasearch
engines, které slouží jako brána k dalším vyhledávačům. Jejich jediným úkolem
je získat od uživatele dotaz, který pak přepošlou na opravdové vyhledávače,
jejichž výsledky pak interpretují uživateli.

Jak hledat jehlu v kupce sena?
Aleš Svoboda
S růstem Internetu začalo být všem jasné, že bez pořádné vyhledávací služby se
tato největší knihovna na světě neobejde. A tak začaly jako houby po dešti
vznikat různé katalogy a vyhledávací programy, které měly uživatelům umožnit
najít tu kýženou jehlu v kupce sena. Bohužel se jim to zatím příliš nedaří...
Myslíte si, že přeháním, že to není pravda, že vyhledávače dokážou najít
všechno? Asi ne, protože téměř určitě patříte mezi ty tisíce nespokojených
uživatelů, kterým různé vyhledávače nabídnou stovky bezcenných stránek, avšak
kýžená informace nikde. Velice vhodnou analogií k této situaci napsala Jennifer
Tanaková: "Představte si, že jste v knihovně. Zajímáte se o Ford Mustang a
chtěli byste najít knihu o tomto automobilu s historií jeho vzniku a řadou
obrázků. Najdete tedy knihovníka v dolní části sálu a požádáte ho o pomoc.
Špatnou zprávou je, že tento knihovník je z Ruska a ruština není vaší rodnou
řečí. Vaši otázku tedy redukujete pouze na několik klíčových slov: kniha, auto,
Ford. K vašemu překvapení se zdá, že knihovník porozuměl a odkvačí pro knihy.
Po chvíli vám na vozíčku přiveze ohromné množství knih, ale žádná vás
neuspokojí: některé jsou o autech, avšak ne o Fordu Mustang, některé jsou o
biografii zakladatele Geraldu Fordovi. Jdete tedy za jiným knihovníkem. Bohužel
ten rozumí pro změnu pouze čínsky."
Tento kratičký, smyšlený příběh asi plně vystihuje deziluzi, kterou zažívají
každý den internetoví surfaři při hledání informací na Webu. Často si totiž
opravdu připadáte, jakoby vyhledávače mluvily nějakou opravdu exotickou řečí,
které opravdu nejde porozumět. Uvedený příběh by pak bylo ještě vhodné doplnit
o jednu informaci, která není na první pohled vidět knihovník hledal knihy
pouze v malé části knihovny, do dalších budov ani nenahlédl.
Lesk a bída vyhledávačů
O tom, že tento fiktivní příběh téměř dokonale reflektuje současnou realitu,
svědčí i několik posledních výzkumů. Podle nich je např. 7 z 10 uživatelů se
službami vyhledávačů nespokojeno. Dalším velice zajímavým ukazatelem je i
vlastní pokrytí Webu těmito vyhledávači (tedy fulltextovými), které podle
průzkumů Steve Lawrance a Lee Giles ("Accessibility of information on the web",
publikováno v časopise Nature, svazek 400, s. 107-109 v roce 1999) pokrývají
jen o malinko více něž 16 % informací dostupných na Internetu. Velice
překvapivé je, že toto číslo i přes výrazný růst počtu indexovaných stránek na
jednotlivých vyhledávačích klesá, např. v roce 1998 bylo na vyhledávačích
obsaženo 34 % z celosvětové pavučiny. Avšak při pohledu na milionový počet
stránek přidaných každý den začíná být jasné, že to vlastně ani v silách
serverů není. Současný Web totiž obsahuje kolem miliardy stránek, na kterých je
celkem uloženo přes 15 TB dat (po odstranění HTML tagů se však jedná "pouze" o
6 TB textů).
Zajímavý je také obsah těchto indexovaných stránek, kdy podle citovaného
průzkumu vyhledávače raději indexují komerční stránky (83 %) a spíše ty, na
které je velký počet odkazů a jsou umístěny v USA (světlou výjimkou je
AltaVista, která geografickou lokaci v potaz nebere).
Ne všechny průzkumy jsou však k vyhledávačům tak přísné, např. podle výzkumu
provedeného firmami Inktomi a NEC Research Instute je podíl pokrytých stránek
daleko vyšší, přesahující 50 %, a to zejména díky serverům firmy Inktomi.
Na druhou stranu je jasné, že bez vyhledávacích serverů to opravdu nejde, např.
podle GVC survey využívá jejich služeb až 85 % uživatelů, kteří ovšem mají ke
spokojenosti opravdu velmi daleko.
Záleží jen na velikosti
Z uvedených dat jasně vyplývá, že nejdůležitějším ukazatelem světových
vyhledávačů je jejich velikost, přesněji řečeno počet stránek, které jsou
indexovány v jejich databázi. Tyto skutečnosti si samozřejmě uvědomily i
vyhledávače, a proto jsou novináři téměř denně zasypáváni tiskovými zprávami
referujícími o další pokořené hranici. Bohužel všechna tato čísla jsou většinou
neauditovaná a jedná se pouze o vlastní údaje serverů, přesto i ta o hodně
ukazatelích vypovídají viz graf. Velice zajímavá je zejména pozice AltaVisty,
která je od svého vzniku brána jako největší, a to hlavně díky tehdejšímu
náskoku, který museli její konkurenti horkotěžko dohánět. A to se jim více než
podařilo, např. až do konce dubna patřila AltaVistě pouze třetí příčka, ze
které o jeden stupínek postoupila 1. května oznámením o 350 milionech
indexovaných stránkách.
Velikosti trochu jinak
Celkový počet indexovaných stran je určitě zajímavým ukazatelem, bohužel o jeho
pravdivosti a vypovídací schopnosti lze snadno pochybovat. Zajímavá fakta pak
podávají další průzkumy, které mohou tato data ukázat v poněkud jiném světle.
Jedním z těchto pohledů je i průzkum prováděný Greg R. Notessem pro jeho server
Search Engine Showdown. Ten se totiž dotázal 14 největších vyhledávačů na 25
jednoduchých klíčových slov a sečetl počet zobrazených stránek. Z tohoto testu
pak nejlépe vyšel server Fast (AlltheWeb.com nebo Lycos advanced search), který
našel nejvíce odkazů v celkem 18 z 25 dotazů.
Výsledkem tohoto výzkumu jsou ovšem i další zajímavá data. Jedním z nich je
určitě i překrývání jednotlivých výsledků. K tomuto účelu autor použil pouze
malý subset dotazů (konkrétně 5), které na všech prohlížečích nalezly 795 hitů,
což odpovídalo 298 unikátním hitům. Více než třetinu (110 stránek) tvořily
stránky nalezené pouze jedním prohledávačem a dalších 79 bylo nalezeno pouze 2
servery. Z těchto 110 stránek pak největší podíl patřil se 40 hity serveru
Fast, následovaným AltaVistou s 23 a Excite s 18 hity.
Nejenom objem
Ačkoliv je velikost jedním z nejdůležitějších ukazatelů, s rozšiřováním zájmů a
potřeb surfařů a zejména s počtem indexovaných stránek roste důležitost dalších
možností, jak dotaz lépe specifikovat (viz vnořený text "Méně je většinou
více"). V dnešní době sice nejsou složité dotazy příliš používány (odhaduje se,
že méně než 6 % uživatelů používá dotazy s logickými operátory AND nebo OR),
přesto jsou při hledání některých údajů k nezaplacení. Téměř všechny servery si
tuto skutečnost uvědomily, ale opravdovou kvalitu nabízejí jen některé z nich.
S logickými operátory se setkáte téměř u všech (nejčastěji se jedná o AND nebo
+ pro klíčová slova, která na stránce být musejí, a o AND NOT nebo pro slova,
která naopak stránka obsahovat nemá), daleko zajímavější jsou ale tzv.
proximity operátory, prohledávání klíčových polí a některé limity.
První případ volně přeloženo: přibližující operátory v sobě skrývá jednak
hledání exaktní fráze (nejčastěji uzavřena v uvozovkách), jednak hledání pomocí
klíčového slova NEAR (z velkých vyhledávačů jej v současnosti podporuje pouze
AltaVista). Další velice užitečnou možností je hledání s použitím klíčových
polí zde je hlavně myšleno vyhledávání v HTML poli Title, v URL stránek, nebo
polí link a host. Poslední zmiňovanou možností je omezení hledání pomocí
některých limitů, kdy asi nejužitečnější je omezení podle data, jazyka a typu
dokumentu. Takovéto vymoženosti ovšem nejsou podporovány všemi vyhledávači,
obecně však lze říci, že právě již zmiňovaná AltaVista je v používání těchto
polí nejdále.
Tím samozřejmě možnosti v žádném případě nekončí, téměř každý prohledavač
nabízí něco speciálního: počínaje nastavením tzv. family filters (filtrování
obsahu např. proti pornografii nebo sprostým slovům) a konče možností nastavit
hloubku vnoření, tedy jak daleko od rootu stránky se může dokument maximálně
vyskytovat.
Třešničky na dortu
Až dosud byla řeč zejména o číslech, velikostech a podobných kvantitativních
ukazatelích, které jsou sice v tomto případě většinou rozhodující, přesto by
nebylo vhodné zapomenout na některé kvalitativní aspekty nebo spíše řečeno na
třešničky na vyhledávacím dortu.
Google.com velice zajímavý start-up, jehož hlavní specializací je řazení
výsledků hledání. Na rozdíl od většiny ostatních totiž neřadí výsledky podle
počtu výskytů daného hledaného výrazu, ale podle tzv. popularity. Tu jednotlivé
stránky a servery získávají podle počtu na ně odkazujících serverů tedy čím
více linků na danou stránku, tím výše se bude daná stránka vyskytovat v
seznamu. Tímto indexováním je také způsoben vysoký počet stránek v grafu
indexovaných stránek, kdy jsou vlastně indexovány i stránky, které nebyly
navštíveny.
Důležité také je, jak populární je stránka, na které daný link existuje. Google
totiž vychází z jednoduchého principu, že na kvalitní stránky bude odkazovat
více serverů než na stránky s nezajímavým obsahem. O tom, že se jedná o
správnou ideu, svědčí i to, že podobné řazení je bráno v úvahu i na dalších
serverech, jako je např. AltaVista, Excite nebo Inktomi.
DirectHit.com podobně jako předchozí staví i tato firma svoje vyhledávání na
popularitě, měřítkem jsou ale v tomto případě sami uživatelé. Vyhledávač totiž
anonymně monitoruje, na jaké stránky uživatelé po vyhledání jdou a hlavně jak
dlouho zde zůstávají. Stránky s nejčastějším odskokem a hlavně s nejdelší
strávenou dobou se pak dostávají do čela při zobrazení výsledků.
MSN (Microsoft Network) zajímavé vylepšení hledání používají u snad nejznámější
softwarové firmy pomocí analýzy jednotlivých vyhledávání jsou schopni stanovit
opravdový význam jednotlivých klíčových slov. To např. v amerických podmínkách
znamená, že v určitý čas je při zadání slova bears (medvěd) spíše než živočich
myšlen klub amerického fotbalu Chicago Bears. Bohužel tuto vlastnost ocení
spíše Američané než obyvatelé české kotliny, takže se při vyhledávání pomocí
MSN příliš nedivte.
Ask Jeeves (ask.com) se vydal poněkud jinou cestou, vsadil spíše na normální
jazyk než na klíčová slova. Zaměstnanci této firmy tak tráví dny analyzováním
všedních otázek, ze kterých se snaží předpřipravit různé další, z nichž si pak
při vlastním hledání můžete vybrat.
Realnames.com sází na to, že většina uživatelů je schopná si zapamatovat název
produktu spíše než jeho lokaci na serveru výrobce. Zde tedy stačí zadat přesný
název produktu a jeho domovská stránka je vzdálena právě jedno kliknutí myší.
GoTo.com vsadilo plně na sílu trhu, jednotlivé firmy si totiž mohou koupit
svoji pozici ve výsledcích hledání na různé dotazy. Na první pohled se jedná
pouze o velice dobrou myšlenku jak z firem získávat peníze, na druhý je ale
jasné, že z toho profituje i vlastní surfař. Firmy asi nebudou platit hříšné
peníze zato, aby figurovaly na prvním místě u dotazu, který nemá s činností
jejich firmy nic společného.
Svět není jen hrubá síla
Až doposud byla řeč pouze o tzv. fulltextových vyhledávačích, ovšem nejen jimi
je prohledáván dnešní Internet. Určitě každý z vás zná slovo katalog, ten je
pak ve světě Internetu symbolizován zejména serverem Yahoo. V takovémto případě
není vsazeno na hrubou sílu (počet indexovaných stran), ale spíše na kvalitu a
lidský faktor, který sice nedokáže prohlédnout tolik stránek jako počítač,
dokáže ale daleko lépe pochopit lidské dotazy, a tím i mnohem lépe připravit
popisy jednotlivých stran k dalšímu hledání. Vlastní hledání pak vlastně ani
není obsahem jednotlivých katalogů, zde se spíše než o hledání stránek jedná o
nalezení správné kategorie, kde by již mělo být připraveno několik stránek,
které budou splňovat všechny požadavky.
Nejznámějším katalogem je bezesporu server na adrese www.yahoo.com, který
zaměstnává kolem 150 editorů, kteří celý den brousí Webem a snaží se doplnit do
stromové hierarchie další stránky, a rozšířit tak již úctyhodných 1,2 milionu
odkazů o další stovky. Na tento server pak navazují další jako např.
looksmart.com nebo Netscapes Open Directory na adrese dmoz.org. Právě posledně
jmenovaný je velice zajímavým projektem, který sází na popularitu Open Source,
kdy zde jako editoři pracují stovky dobrovolníků po celém světě a šanci máte i
vy, vaše oblíbená sekce totiž může být stále volná a hledá svého editora.
Nebojte se a hledejte
Ačkoliv tento článek začínal relativně pesimisticky, rád bych vše na konec
uvedl na pravou míru vyhledávače na Internetu sice rozhodně nejsou ideální a
určitě neindexují celý Web, přesto mají jednu vlastnost, na které opravdu těžko
něco změníte jsou totiž téměř jedinou možností, jak na Internetu něco najít.
Nezbývá vám tedy nic jiného, než si jeden nebo více takových vyhledávačů vybrat
a hledat. Tedy samozřejmě jestli chcete něco zajímavého najít. A to by v tom
musel být čert, aby se něco mezi terabajty nenašlo.
0 1399 / alsn
Méně je většinou více
Právě při vyhledávání platí výše uvedený paradox určitě na 100 %. Tisíce
nalezených odkazů bezpochyby svědčí o špatně položeném dotazu a ne o nezměrném
bohatství Internetu. Ve většině případů ovšem ani méně něž 10 nalezených dotazů
neukazuje na dobře položený dotaz. Jeho konstrukce je totiž určitou odrůdou
dnešní počítačové magie. Pokud dokážete zkonstruovat vhodný dotaz, máte vždy
před svými konkurenty náskok téměř v čemkoliv, co děláte. Skoro ke všemu
existuje na Internetu odpověď nebo alespoň drobná rada, jediným problémem je,
jak ji najít.
Základem jsou v tomto případě klíčová slova, úplně ideálně taková, která se
vyskytují pouze v tomto problému a nemají žádný další nebo obecný význam. Běžná
slova nemá cenu vůbec používat, typickým případem může být slovo computer,
které je téměř na každé stránce. Určitě pak používejte logické operátory jako
je AND, OR a NOT, které mohou dotaz ještě více zjemnit.
V případě, že je hledání informací vaším denním chlebem, pak bych vám také
doporučil nějaký specializovaný software, jako je např. WebFerret (o něm jsme
referovali v čísle 6/2000) či Copernic (ten byl v 13/2000), anebo použít služeb
tzv. meta vyhledávačů (www.savvysearch.com, www.profusion.com). Tyto programy
vám totiž umožní přístup k více prohledávačům najednou pomocí jediné otázky.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.