S delfíny na Internet!

Nové vyhledávání pro Web V loňském roce založená americká firma DolphinSearch, Inc. z Ojai (Kalifornie) slibuje prů...


Nové vyhledávání pro Web
V loňském roce založená americká firma DolphinSearch, Inc. z Ojai (Kalifornie)
slibuje průlom v informačních technologiích svým nástrojem KnowledgeBox, který
prezentuje jako první vyhledávací stroj schopný porozumět významu slov v textu
stejně efektivně jako lidé. Nová technologie je podle firemních údajů založena
na patnáctiletém výzkumu profesora H. L. Roitblata, experta v oblasti
rozpoznávacích schopností delfínů, nyní viceprezidenta a vedoucího výzkumu
firmy DolphinSearch.
Henry Lieberman, starší vědecký pracovník MIT, ve svém prohlášení potvrdil, že
technologie DolphinSearch skutečně nabízí lepší výsledky, než jaké obvykle
dostanete od běžných vyhledávacích strojů, jakými jsou např. AltaVista nebo
Yahoo. KnowledgeBox pracuje na principu umělých neuronových sítí, což je jedna
z moderních obecných technologií umělé inteligence. Od delfínů pak konkrétně
získal inspiraci v jejich způsobu vyhodnocování zachycovaných signálů při
echolokaci. Ukázalo se totiž, že delfíni vůbec nevěnují pozornost jednotlivým
vlnovým délkám, pokud se nevyskytují v určitých kombinacích (tedy vlastně
kontextech), které si zapamatovali. Teprve určitá charakteristická kombinace
určitých vlnových délek má pro delfína nějaký význam. Technologie DolphinSearch
staví na předpokladu, že obdobně jako jednotlivé vlnové délky pro delfína,
fungují jednotlivá slova pro člověka alespoň pokud jde o určení obsahové
relevance textového dokumentu.
To by ovšem samo o sobě ještě nebylo nic tak převratného. Odborníkům na textové
vyhledávací systémy je již dávno známo, že vyhledávání čistě podle výskytu
jednotlivých slov je zatíženo nepřesností v důsledku homonymie a polysémie
slov. Jinak řečeno, např. slovo "tiskárna" neznamená vždycky totéž, co si pod
tím zrovna jako uživatelé vyhledávacího systému představujeme, a konkrétní
požadovaný význam lze definovat pomocí určitých požadavků na kontext třeba že
někde v blízkosti by se měla vyskytovat alespoň některá ze slov: počítač(ová),
laserová, inkoustová, trysková, barevná, černobílá... KnowledgeBox také ve
skutečnosti není první programový nástroj na světě umožňující definovat takové
rozlišení. Dosud to však zpravidla musel velmi explicitně provádět uživatel, ať
už pomocí více či méně těžkopádných kombinací kontextových (neboli proximitních
či distančních) a logických operátorů mezi slovy přímo v jednotlivých dotazech,
anebo například ve formě definice pojmových stromů (topic trees) jako předem
připravených témat vyhledávání v systému Topic firmy Verity.
KnowledgeBox pracuje ve dvou fázích. Nejprve se založí tzv. hledisko
(point-of-view), např. "správce LAN". Na toto hledisko se systém natrénuje
zpracováním reprezentativního textu (lépe asi většího množství dokumentů), o
kterém se předpokládá, že je jako celek z daného hlediska relevantní a obsahuje
všechna z tohoto hlediska důležitá slova v jejich pro toto hledisko
charakteristických kontextech. Systém si vytvoří datovou strukturu
specifikující pro jednotlivá slova jisté informace o kontextech, které
podmiňují jejich zajímavost z daného hlediska. Pak už je možno se ho dotazovat
pomocí specifikace existujícího hlediska (např. "správce LAN") a jednotlivých
hledaných slov (např. "tiskárna"), a systém vyhodnocuje celý prostor textů, ve
kterém si přejeme vyhledávat třeba celou WWW. Místo pouhých výskytů slova
"tiskárna" systém hodnotí výskyty tohoto slova v kontextech alespoň podobných
těm, které se naučil pro hledisko "správce LAN". Tak by mělo být každopádně
zajištěno, že uživateli nenabídne např. stránku Obchodních tiskáren Kolín.
Firemní materiály ovšem slibují ještě větší přesnost, pro tento příklad
odpovídající asi tomu, že nebudou nabízeny ani dokumenty o výrobě počítačových
tiskáren...
Detaily způsobu vyhodnocování kontextu firma přirozeně nezveřejňuje. Můžeme se
tedy jen dohadovat, jak náročné výpočty jsou v něm "schovány", jak široký
kontext každého slova je skutečně brán v úvahu a s jakou rozlišovací schopností
(zda by např. "počítačovou tiskárnu" a "tiskárnu k počítači" systém považoval
za stejný kontext, nebo ne) atd. Vnucuje se také otázka, jak náročné je
trénování na nové hledisko a jak rozsáhlý textový vzorek k němu musí být dodán,
aby nadměrně neutrpěla úplnost vyhledávání (systém zjevně akcentuje především
přesnost). Firma na svých stránkách (www.dolphinsearch.com) vybízí k vyzkoušení
systému pomocí předem připraveného hlediska "weekend golfer" pochopitelně k
vyhledávání anglických textů na základě zadaných anglických termínů. Přiznám
se, že jsem tuto nabídku nevyužil, protože jsem golf nikdy nehrál a golfové
terminologii nerozumím ani v češtině, natož v angličtině. Zaměření příkladu
ovšem může něco vypovídat o tom, jaké typy uživatelů a úloh vyhledávání
považuje firma DolphinSearch za perspektivní pro své uplatnění.
0 2037 / alsn

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.