Hluboký web

Běžnými vyhledávacími technikami nepřístupná oblast internetu uložená povětšinou v databázích. Mnoho autorů...


Běžnými vyhledávacími technikami nepřístupná oblast internetu uložená
povětšinou v databázích.

Mnoho autorů a vědeckých pracovníků dnes provádí značnou část svého výzkumu
pomocí internetu. Používají velké vyhledávače typu Google či Yahoo. Skutečně je
v nich tolik dosažitelných informací, že lze člověku odpustit myšlenku, že
zpřístupňují všechno. Ovšem nic není dále od pravdy než toto tvrzení. Například
v srpnu 2005 Google uváděl, že indexuje 8,2 miliardy webových stránek a 2,1
miliardy obrázků. To zní zajímavě, ale je to jenom špička ledovce. Vítejte v
hlubokém webu.

Skryté informace
Podle Mikea Bergmana, vedoucího technologa firmy BrightPlanet, existuje na
hlubokém webu až 500krát více informací, než kolik znají tradiční vyhledávače.
Obrovské množství dat přebývá v databázích, ze kterých se generují webové
stránky, jako odpověď na specifické dotazy. Dynamické stránky sice mají
unikátní adresu URL, na které si je lze prohlédnout znovu, ale nejsou ukládány
jako statické stránky a nevedou na ně linky z jiných míst webu.
Hluboký web také obsahuje stránky, jež vyžadují registraci nebo i jinak omezují
přístup k sobě, čímž znemožňují vyhledávačům své čtení a vytváření kopií v
cache.

Databáze vyhledávačů
Pojďme si zrekapitulovat, jak konvenční vyhledávače tvoří své databáze.
Programy zvané pavouci nebo síťoví lezci načítají stránky podle jejich
počátečního seznamu. Pavoučí aplikace nejdříve přečtou každou podstránku na
příslušném webu, zaindexují celý obsah a následně přidají slova, která našli,
do rostoucí databáze vyhledávače. Najde-li pavouk hyperlink (odkaz) na jinou
stránku, přidá jej do seznamu stránek k indexování. Časem program obsáhne
všechny odkazované stránky. Stane se tak samozřejmě pouze tehdy, pokud
vyhledávači nedojde volné místo na disku. Tyto odkazy provázané stránky, které
lze dohledat z jiných míst webu, tvoří to, co většina z nás zná a označuje
slovem internet anebo web. Ve skutečnosti jsme se ale jenom dotkli povrchu,
pročež se tato oblast informací označuje často termínem povrchový web.

Hlouběji
Proč naše vyhledávače nevyhledají hlouběji uložené informace? Představme si
typický objem dat nashromážděný jednotlivcem nebo kolektivem, obsahující knihy,
texty, články, obrázky, laboratorní výsledky a různá jiná data v různých
formátech. Obvykle do takové databáze přistupujeme pomocí vyhledávacího dotazu
napíšeme předmět nebo klíčové slovo, které hledáme, databáze vyhledá příslušnou
informaci a ta je nám zobrazena na stránce s výsledky vyhledávání.
Pokud to můžeme lehce udělat my, proč ne vyhledávač? Předpokládejme, že se
vyhledávač dostane na stejnou vstupní, respektive vyhledávací stránku jako my a
že zachytí text na té stránce a na všech stránkách, které na ni staticky
odkazují. Ale na rozdíl od živého člověka pavouk neví, jaká slova má napsat do
vyhledávacího formuláře. Samozřejmě nemůže použít všechna slova, která zná, a
ani netuší, co je pro danou stránku nebo databázi relevantní. Pokud není snadná
cesta k dotazu, data z databáze skutečně zůstanou pro vyhledávač neviditelná.
Dokonce každá stránka, která náhodou není propojena linky z jiných stránek na
pavoučím vstupním seznamu, je neviditelná, a tudíž netvoří součást povrchového
webu, jak ho definuje pavouk.

Jak hluboký? Jak velký?
Podle studie společnosti BrightPlanet z roku 2001 představuje hluboký web
skutečně velmi rozsáhlý informační útvar. Společnost zjistila, že 60 největších
webových zdrojů obsahuje 84 miliard stránek s obsahem asi 750 TB informací.
Těchto 60 zdrojů představovalo objem 40krát větší, než povrchový web. Dnes
BrightPlanet odhaduje, že kompletní web má celkově 7 500 TB dat na více než 250
000 webech, které odkazují na minimálně 500 miliard soukromých dokumentů. A to
se bavíme jenom o stránkách v angličtině a evropských znakových sadách. Nyní si
vzpomeňte, že Google aktuálně indexuje nějakých 8 miliard stránek. Firma
BrightPlanet, dodavatel softwaru pro prohledávání hlubokého webu, spolupracuje
s vědeckou komunitou a má přístup ke stránkám ve více než 140 jazycích. Mnohé z
nich nepoužívají latinku. BrightPlanet běžně prodává své výrobky s odkazy na
více než 70 tisíc hlubokých webových zdrojů, vše přeloženo do angličtiny.
Bergman říká, že zákazníci jeho firmy mají pravděpodobně přístup k 2 až 3krát
větším zdrojům informací.
Hluboký web se stává každou chvíli hlubším a větším. Zdá se, že za to mohou dva
faktory: Za prvé, novější zdroje dat (obzvláště ty, které nejsou v angličtině)
bývají většinou provozovány jako dotazovací/vyhledávací typ, což je obecně
praktičtější i užitečnější než statické stránky. Za druhé, vlády na všech
úrovních po celém světě učinily závazky, že zpřístupní své oficiální dokumenty
a záznamy na webu. Podle Bergmana existuje nejméně deset států USA, na jejichž
portálech lze zpřístupnit dokumenty a veřejné listiny pomocí jednoho kliknutí.
Zajímavé je, že hluboký web má pravděpodobně o 50 % větší měsíční návštěvnost
než povrchový. Současně hluboký web tvoří více stránek, jež sice nejsou veřejně
známé a většinou mají poměrně omezený rozsah, ale často nabízejí hlubší a
detailnější obsah. Bergman uvádí, že jenom asi 5 % hlubokého webu vyžaduje
placení nebo registraci.


Informace uložená v databázi je součástí hlubokého webu. Databáze může
obsahovat velké seznamy položek se společným tématem. Všechny adresáře tvoří
součást hlubokého webu.
Stránky s prohledávatelnými databázemi lze získat pomocí adresářů nebo
vyhledávačů. Jde o řešení známé jako split-level searching v první úrovni
hledáte umístění databáze a ve druhé jdete na příslušnou stránku a prohledáváte
samotnou databázi, abyste našli informaci, kterou potřebujete.
Většina vyhledávačů a komerčních portálů obsahuje prohledatelné databáze jako
součást balíčků svých nabídek.
Některé vyhledávače budou v hlubokém webu hledat i obsah příbuzný původnímu
předmětu vyhledávání.
Výsledky dotazu na jakékoliv téma na hlubokém webu se mohou extrémně lišit. To
znemožňuje dopředu předpovídat, co se v databázi objeví.
Jako vždy při hledání na internetu je nutné přizpůsobit dotaz vyhledávači na
míru.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.