Hledat na Internetu dnes ještě neznamená najít

Poněkud banálně znějící slogan říká, že Internet je obrovským informačním oceánem, tudíž problematika efektivn...


Poněkud banálně znějící slogan říká, že Internet je obrovským informačním
oceánem, tudíž problematika efektivního hledání informací hraje v tomto případě
zcela klíčovou roli. K čemu je dobré, když se požadovaný údaj někde v Síti
nachází, pokud se vy k němu nedokážete dostat? Rychlé a na schopnosti uživatele
nepříliš náročné vyhledávání šetří čas, peníze i nervy. Je však dnes hledání
informací na Internetu opravdu efektivní? Na jaké problémy uživatel naráží a
jaké jsou v tomto ohledu vyhlídky do budoucna?

Historie
Veškeré internetové služby (e--mail, FTP, Usenet) se od počátku potýkaly s
problémem vyhledávání (v adresách, archivech souborů, diskusních
příspěvcích...). Poměrně klíčovým okamžikem byla chvíle, kdy nad službou Gopher
(což byl jakýsi předchůdce dnešního světa WWW) vznikla tzv. Veronica.
Jak Gopher od roku 1994 ztrácel význam na úkor rychle expandujícího Webu
(zejména poté, co se v srpnu roku 1994 na Internetu objevila první pro
veřejnost určená beta-verze Netscape Navigatoru a Web se stále více stával
prostředím grafickým až multimediálním), bylo jasné, že se dříve či později
objeví i první prohledávače WWW prostoru. V první fázi se uživatelé na Webu
pohybovali především díky hypertextovým odkazům mezi stránkami, ale velmi
rychle se servery vyhledávacích služeb staly těmi nejnavštěvovanějšími
stránkami.

Kdy a kdo?
Idea vzniku AltaVisty se zrodila v květnu roku 1995. Testování ve firmě Digital
pak probíhalo od srpna 1995 a adresa http://www. altavista.digital.com se pro
veřejnost otevřela v prosinci roku 1995. Mimochodem: "přirozená" adresa
http://www.altavista.com patřila až do nedávna firmě AltaVista Technology,
která se zabývala poskytováním služeb v oblasti digitální fotografie. Tato
firma následně vykazovala až
500 000 přístupů denně a odpovídající příjmy z reklamy. Doména AltaVista byla
koupena Digitalem až v srpnu letošního roku za 3,35 milionu dolarů (což je
rekordní částka, která kdy byla za doménu 2. úrovně zaplacena) přesněji řečeno,
kupcem již nebyl přímo Digital, neboť on sám mezitím stihl být koupen
společností Compaq.
Původním cílem Digitalu bylo demonstrovat na AltaVistě především možnosti
vlastního hardwaru (procesor Alpha). Návštěvnost hlavní stránky byla od počátku
obrovská (600 000 denních přístupů v prosinci roku 1995, dnes více než 100
milionů hitů denně). Evropské zrcadlo AltaVisty provozované švédskou
telekomunikační společností Telia je přitom pravděpodobně nejnavštěvovanějším
webovým serverem v Evropě.

Rekordy
Konec konců, AltaVista dnes není mezi 5 nejnavštěvovanějšími internetovými
servery a ani objemem reklamy se nemůže měřit se servery katalogových
vyhledávacích služeb (v obou kategoriích vede Yahoo).
Rekordy ovšem AltaVista od počátku lámala především v oblasti zaindexovaných
informací. V databázi je zaneseno 110 milionů stránek, což obnáší cca 550 GB
textu. Jenom operační paměť databázového serveru má velikost 6 GB.
Jako jistou perličku lze uvést, že popularita AltaVisty zasáhla i slovenský
"hackerský vyhledávací stroj" AstaLaVista (http:// astalavista.box.sk), kde
"reklamní" bannery obnášejí výlučně odkazy na stránky zabývající se erotikou
(mírně řečeno).

Konkurenti
Asi největšími konkurenty na poli fulltextových vyhledávacích služeb jsou
HotBot, Excite, Infoseek a Lycos. Zajímavé informace: Lycos se snaží patentovat
technologii prohledávání a indexování Webu jako takovou a výsledně zřejmě
přinutit ostatní vyhledávací služby k placení poplatků "za licenci".
Prohledávací technologie, na níž běží vyhledávací stroj HotBot (a která je
dílem společnosti Inktomi), se zase stala základem i řady vyhledávacích služeb
jiných firem mj. na ní běží i prohledávač Microsoftu, známý dlouho pod kódovým
označením Yukon (dnes funkce MSN Web Search na http://home.microsoft.com).

Katalogové vyhledávače
Katalogové vyhledávací služby jsou užívanější než ty fulltextové, neboť
především méně zkušení uživatelé nemusí zadávat hledané řetězce (mnohdy ne
zcela triviální záležitost s nutností najít optimální divoké znaky a logické
operátory), ale mohou se prostě proklikávat rozbalujícím se stromem. Vyjma
zcela obecných slov se uživateli jako odpovědi také nedostane celé záplavy
odkazů.
Katalog nicméně nepojme zdaleka tolik stránek jako obrovské databáze
fulltextových vyhledávačů; navíc, jak na Internetu dochází ke stále větší
integraci služeb, tak se obě metody hledání budou stále více prolínat (už dnes
odkazují katalogy v případě, že hledané slovo nenajdou na spřátelený
fulltextový prohledávač; někdy se to děje i automaticky, jako je tomu např. na
ose Seznam»Kompas). Navíc, řazení dokumentů do jednotlivých kategorií je do
jisté míry subjektivní. "Struktura" myšlení uživatele a autora dokumentu (resp.
programátora vyhledávací služby) nemusí být zcela kompatibilní; přání a jemu
odpovídající dokument se mohou prostě "minout".

Ještě k té integraci
V souvislosti s vyhledávacími službami můžeme narazit na pojem "portál", což je
server sloužící jako určitý průvodce celým světem Internetu. Základem portálu
může být přirozeně katalog, stejně jako fulltextový vyhledávač. Portál je tedy
charakterizován spíše určitou vizí kombinace jednotlivých služeb, nežli
nasazením konkrétní technologie.
Studie společnosti Forrester Research vnímá následující úrovně technologií pro
vyhledávání, indexování a vůbec práci s informacemi: "vyhledávače
textů" (Simple Text Searchers), kam spadá např. AltaVista a Infoseek, "chytré
vyhledávače" (Smart Searchers), kam se řadí Aptex, Autonomy či Perspecta,
"správce znalostí" (knowledge managers) sem spadají produkty Fulcrum, Lotus,
Verity a "správce procesů" (process managers), zastoupené např. produkty
Documentum či OpenText. Názornost této klasifikace je v tuzemských podmínkách
poněkud narušena faktem, že na Internetu je možné si vyzkoušet vlastně jen
aplikace "nejnižší" úrovně. Nicméně i při určité neurčitosti celé studie (spíše
"konzultantský" než technický jazyk) je dobře patrné, že fulltextový
vyhledávací stroj zaujímá pouze jednu z příček v rozsáhlé pyramidě efektivního
sdílení informací. Vazba mezi statistickou četností výskytu určitého řetězce a
jeho relevancí k tématu dotazu je poměrně neurčitá.

Co pavouk nenajde
Indexovací robot (pavouk) prolézá Internet po hypertextových odkazech. Z tohoto
důvodu nenajde stránky, na které nevede žádný odkaz a které nikdo nemá zájem
vložit do databáze (např. některé hackerské archivy). Vyhledávací roboti mají
podle svého "etického kodexu" také ignorovat stránky, které si správce serveru
nepřeje zaindexovat (a příslušným způsobem sdělí tuto informaci v souboru k
tomu účelu určenému).
Protože čas, za který pavouk proleze celý Internet, rozhodně není 1 den,
indexuje AltaVista poněkud zastaralou podobu Internetu. Pravděpodobně podle ní
tedy nenajdeme vysloveně aktuální zprávy z dnešního vydání on-line deníků;
indexovací robot také přirozeně zaindexuje pouze statické HTML dokumenty,
nikoliv třeba stránky, které jsou samy odpovědí nějakého serveru na dotaz
"hrabající" do databáze.
Frekvence návštěv robota na vaší stránce záleží také na tom, jak během prvních
návštěv odhadne frekvenci změn příslušné stránky.

Jak se vyhledávače šidí
Uživatel zadá vyhledávané slovo a prohledávač poskytne jako odpověď řadu
odkazů. Samozřejmě, pokud máte svoji komerční stránku, je nejspíš vaším cílem,
abyste se v odpovědi vyhledávacího serveru dostali co nejvýše. Dosáhnout toho
lze různými způsoby: nesmyslným opakováním slov, zapsáním falešných údajů do
tagu <META>. Řada stránek si takto přidává text, který nijak nesouvisí s jejich
obsahem (obvykle jde o věci, u nichž se předpokládá, že je bude vyhledávat celá
řada lidí, tedy hlavně erotika nebo aktuální "senzace"). Uživatel je pak ještě
šizen tak, že mnohokrát se opakující texty "sexual-oriented" se napíší stejnou
barvou, jako je barva pozadí (v jazyce HTML triviální záležitost, stačí
nastavit stejné hodnoty atributů "BGCOLOR" a "TEXT") a sexuchtivý surfař uvidí
pouze informace o obchodní nabídce firmy.
Erotické služby se naproti tomu naopak často tváří jako stránky zabývající se
aktuálním tématem, "zpravodajskou bombou".
Ve skutečnosti to pravděpodobně nebude tak triviální. Soudím, že prohledávací
robot asi odmítne indexovat stránku, kde najde vedle sebe stejné hodnoty
BGCOLOR a TEXT. Ovšem my, stejně jako lstiví Afgánci, dokážeme být také
vynalézaví: jeden atribut např. zadáme jako předdefinovanou barvu a ten druhý
jako zápis prostřednictvím zápisu v modelu RGB (ideálně zřejmě jako neznatelně
odlišnou intenzitu téže barvy). Válka o to, kdo koho přelstí, trvá dál...
Údajně až polovina stránek zadávaných do databáze AltaVisty jsou dnes podvody.
Existují i pokusy odstranit konkurenci tím, že se její stránka zadá do položky
"odstranit z databáze". Z tohoto důvodu robot před odstraněním (prý) prověří,
zda příslušná stránka opravdu přestala existovat.

Další paraziti
Na AltaVistě v jistém ohledu parazituje celá řada vyhledávacích služeb, zejména
různé klientské metahledače (které navíc často sbírají odkazy od více
vyhledávačů najednou). I vyhledávání AltaVisty z domovské stránky vyhledávací
server svým způsobem poškozuje, protože zmenšuje počet zobrazení hlavní stránky
(a tím i příjmy z reklamy). Ještě horší pro vyhledávací službu ovšem je, pokud
metahledač slouží nejen pro zadání dotazu, ale snaží se pro sebe "uzurpovat" i
odpověď.

Pomůcky vyhledávacích služeb
Vyhledávací služby se snaží uživatelům vyhledávání zpříjemnit řadou způsobů. Už
od počátku je to povolení hvězdičkové konvence (divokých znaků), hledání s
omezením podle URL a logických operátorů. Nicméně finální podoba dotazu se
často zrodí až na základě několika pokusů, které dají výsledek buď nulový, nebo
naopak odkazů příliš mnoho (případně jsou odpovědí odkazy nevztahující se k
tomu, o co uživatel nejvíc stojí). Zajímavostí AltaVisty je v poslední době
možnost zadávat dotaz v "přirozeném" jazyce anglicky. Pro efektivitu
vyhledávání to má nulový význam, ba naopak se to snadno může ukázat jako zcela
kontraproduktivní, nicméně tato novinka dobře zapadá do trendu přizpůsobit
Internet začínajícím uživatelům.
Vyhledávací služby nabízejí jako další pomůcku překlady, vyhledávání v
dokumentech psaných pouze v určitém jazyce, eventuálně řadu katalogů. Za
situace, kdy jméno domény nemá nutně vztah ke jménu firmy či registrované
obchodní značce, získávají význam i katalogy tzv. skutečných jmen (Real Names).
V této pomůcce AltaVisty již nehledáte slovo XY, ale firmu, jejíž oficiální
jméno je XY příslušná doména http://www.xy.com přitom může být ve vlastnictví
zcela jiného subjektu a při "obyčejném" dotazu by v odpovědi mezi prvními
odkazy byly zřejmě právě stránky tohoto subjektu.
Ke specializovaným databázím kromě katalogů firem patří např. databáze souborů
(http://www.filez.com), screenshotů programů (http://www.screen shots.com),
vyhledávání osob, on-line nabízených knih, objektů na mapách (oboje k dispozici
již i na českém Internetu) a nejnověji na AltaVistě např. i volně přístupných
digitálních fotografií.
Samozřejmým úsilím vyhledávacích služeb je i už zmíněná eliminace stránek,
které předstírají jiný obsah, než který skutečně mají.
Cíl je jediný: aby uživatel co nejrychleji našel to, co opravdu potřebuje.
Vzhledem k tomu, že vyhledávací služby žijí z návštěv uživatelů a vlastně tedy
mají zájem, abyste se na jejich stránce zdržovali co nejdéle, lze zapochybovat,
zda je úsilí vyhledávacích serverů opravdové. Nicméně, na poli vyhledávacích
služeb existuje velmi ostrá konkurence. Aby si server udržel zájem uživatelů,
musí nabízet služby minimálně stejně kvalitní jako jeho rivalové naše podezření
tedy zřejmě není na místě.

Vyhledávání integrované s prohlížečem
Už staré verze webových prohlížečů měly v nabídce v panelu nástrojů tlačítko
odpovědné za vyhledávání. V posledních verzích prohledávačů se objevily i
nabídky rozšiřujících možností.
Microsoft Internet Explorer ve verzi 4.0 umožňuje díky nadstavbě zvané Power
Toys (opět z dílny Microsoftu) vyhledávat přímo z adresního řádku prohlížeče
(příslušné povely se přitom nadefinují v menu Quick Search.exe, hledání českého
Computerworldu podle AltaVisty pak např. vypadá tak, že se do adresního řádku
napíše "a +Computerworld +host:cz").
Netscape Navigator ve verzi 4.5 nabízí nejen podobné možnosti v podobě tzv.
SmartBrowsingu a Internet Keywords, ale obsahuje i položku "whats related",
která poněkud připomíná fungování staršího přídavného modulu od firmy Alexa
Software. Jde o to, že při návštěvě stránky se dozvíte adresy stránek
"příbuzných" a např. i to, kam většina uživatelů dále směřovala.
Internet Explorer ve verzi 5.0 jde ve vazbě na vyhledávací stroje ještě dále
(opět vazba na příslušné servery, hledání podle firem, osob a dalších
kategorií, hledání pomocí několika robotů najednou...). Samozřejmě je třeba
ještě vyčkat na finální verzi.
Je však jasné, že funkce tohoto typu sice zjednodušují život uživatele ten
nemusí kontaktovat vyhledávací službu, neriskuje, že jako odpověď dostane
záplavu odkazů, které alespoň z části nebudou s tématem dotazu vůbec
souviset... Na druhé straně je však uživatel obětí jisté svévole tvůrce
prohlížeče, neboť se mu dostane pouze informací, které kdosi jiný prohlásil za
relevantní. Pomineme-li možnou tendenčnost, stále je tu značná neúplnost tohoto
spíše subjektivního výseku.


Limitující faktory: harddisky a HTML
Maximálně dosažitelná velikost pevných disků je dnes zřejmě hlavním limitujícím
faktorem internetových vyhledávacích služeb a současně příčinou toho, že jejich
databáze v žádném případě neobsáhne celý Internet. Pevné disky v řádu TB (tedy
10 na 12 B) by se snad mohly objevit díky nové záznamové technologii OAW
(Optically Assisted Winchester), jež je kombinací klasické technologie výroby
pevných disků a laserového záznamu. Uvedená technologie je dílem kalifornské
společnosti Quinta, kterou po loňské akvizici vlastní výrobce pevných disků
Seagate.
Druhým limitujícím faktorem jsou pak nedostatky samotného jazyka HTML, zejména
malý počet atributů. Většina elementů definuje spíše "význačnost" textu,
eventuálně jeho konkrétní grafickou reprezentaci (barva, velikost a font písma).
Pokud by existoval dostatek elementů definujících přímo typ textu, mohly bychom
vyhledávat opravdu efektivně: ne tedy fulltextově "najděte všechny stránky
obsahující slovo lednice a číslo 2 000", ale "najděte všechny stránky, kde je v
elementu <nabízené zboží> uvedeno slovo lednice a v elementu <cena> částka
menší než 2 000 Kč." Již dnes sice existují "peněžní roboti", snažící se
poskytovat služby tohoto typu (viz např. článek na adrese
http://www.mercurycenter.com/business/top/044872.htm.), nicméně v tomto ohledu
je Internet teprve na začátku své cesty.
Toto vše by měl přinést až další vývoj jazyka HTML. Máme zde co dělat s
metajazyky, značkovacími jazyky a celou řadou zkratek: např. SGML (Standard
Generalized Markup Language), XML (eXtensible Markup Language), XSL (eXtensible
Style Language) a DTD (Document Type Definition). Zájemce o tuto problematiku
bych odkázal zejména na výborný článek Jirky Koska, který vyšel v loňském
Computerworldu. Tento text můžete najít na internetové adrese http://
www.idg.cz/computerworld/1997b/
/c60.htm. Na Webu Jiřího Koska ml. (http://manes.vse.cz/~xkojs06) najdeme i
popis, jak upravit stránku pro vyhledávací stroje, jak volat vyhledávací stroje
přímo z naší stránky a také jak použít vyhledávací službu pro prohledávání
vlastní stránky (tedy vlastně volání vyhledávací služby s parametrem stránky).
Poslední varianta je řešena prostřednictvím JavaScriptu; kód JavaScriptu je
přímo součástí stránky, takže je možné si ho ve zdrojovém textu HTML
prohlédnout.

Poněkud teoretický závěr
Samozřejmě, problematika indexování, sdílení a vyhledávání informací je
mimořádně široká. Řady otázek jsme se přitom nestačili ani letmo dotknout. Sem
patří např. problematika synonym či slovních "podmnožin" (pes»kokršpaněl;
hledám-li něco o psech, může mi zcela uniknout dokument, kde se nevyskytuje
"přímo" toto slovo), různých gramatických tvarů (problém hvězdičkové konvence
tam, kde se mění nejenom koncovka, ale i kmen slova), dokumentů psaných v
různých jazycích... Tento článek byl zaměřen spíše na historii a současnost
internetových vyhledávacích služeb, nicméně počítačová lingvistika zahrnuje
přirozeně mnohem širší paletu problémů i technologií.
V některém z příštích vydání Technology Wordu se k problematice samozřejmě
vrátíme.

8 2796 / pah









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.