Hledání zítřka

Internetové vyhledávače zažijí revoluci. Většina lidí pracujících s informacemi by měla velké problémy, kdyby měl...


Internetové vyhledávače zažijí revoluci.
Většina lidí pracujících s informacemi by měla velké problémy, kdyby měla
jmenovat něco, co změnilo jejich profesní život tolik, jako internetové
vyhledávače. Zázračné služby, které jsou schopny vyhledat žhavá témata daného
dne, projít miliony webových stránek a během několika sekund zobrazit informace
o nových produktech, výzkumech, jménech odborníků a další údaje, jež by jinak
bylo možné nalézt jen s velkými obtížemi nebo vůbec.
I přes své silné stránky ale mají vyhledávače také spoustu slabých míst. Pokud
se například nějaký uživatel v srpnu letošního roku rozhodl hledat přes Google
slovo Linux, po hledání trvajícím pouhých 0,19 sekundy dostal více než 95
milionů výsledků. To ho jistě neuspokojilo v případě, že ten jím požadovaný byl
desetitisící na seznamu. Že je chyba na straně uživatele? Nikoli v případě,
pokud přijmeme tezi, že uživatel má vždy pravdu...
Výzkumníci hodlají v příštích několika letech přinést do oblasti vyhledávání na
internetu revoluci. Jedním z hlavních cílů jejich práce je personalizace
vyhledávačů. Měly by tak například vědět, že jste odborníkem v oblasti IT, a
pokud hledáte slovo myš, pak vás zajímá spíše počítačová periferie než údaje o
zvířatech.

Agenti
Adele Howeová, profesorka počítačových věd na státní univerzitě Colorada, a
její postgraduální student Gabriel Somlo již vytvořili nástroj testující
použitelnost naznačeného konceptu nazvaný QueryTracker. Jedná se o softwarového
agenta, který tvoří jakousi mezivrstvu mezi uživatelem a běžným vyhledávačem a
sbírá informace o opětovných oblastech jeho zájmu tím mohou být například
nejnovější informace o chronické nemoci daného uživatele. QueryTracker následně
postupuje jednou denně dotaz uživatele vyhledávači a zobrazuje výsledky
současně sleduje, které stránky se od předchozího dotazu změnily.
Kouzlo QueryTrackeru spočívá v automatickém vytváření dodatečných každodenních
dotazů, které jsou podle Howeové často kvalitnější než ty, které zadává sám
uživatel. A to na základě zjištění o zájmech uživatele a jeho prioritách v
průběhu času. Nástroj se stará o filtrování výsledků obou druhů dotazů na
základě relevance a jejich odeslání uživateli.
"Schopnost nástroje QueryTracker vytvářet vlastní dotazy může kompenzovat
špatně zformulované otázky, jež mnozí uživatelé vytvářejí," tvrdí Howeová.
"Dokonce i lidé znalí webu jsou často buď příliš líní, nebo neinformovaní o
tom, jakým způsobem by měli psát dobré dotazy," dodává. Nejběžnější chybou jsou
podle ní příliš krátké dotazy, jako je výše uvedený jednoslovný výraz Linux.
Jeannette Jenssenová, profesorka matematiky na Dalhousie University v Halifaxu,
pokročila s personalizačními technikami ještě o krok dále zaměřila se na boty
(crawlery) indexující obsah webu předtím, než se provádí vyhledávání.
Jenssenová tvrdí, že oblíbené vyhledávače mají tři nedostatky: Ve stále vyšší
míře za své služby účtují vysoké částky firemním uživatelům, zkreslují výsledky
ve prospěch inzerentů a často stahují ohromné množství irelevantních informací.
Ale specializované crawlery, které Jenssenová vytvořila, indexují pouze ty
stránky, jež mají vztah k předem definovaným tématům, a hodnocení následně
přizpůsobují zájmům uživatele.
Podle Jenssenové by například lékařská firma mohla každou noc spouštět svůj
crawler, který by indexoval pouze stránky vztahující se k medicíně. Současně by
hodnotil výsledky způsobem, který dává smysl v oblasti lékařství, nikoliv tak,
jak to požadují inzerenti nebo běžní uživatelé webu. Výsledky indexování by se
stále zlepšovaly na základě pozorování úspěšnosti vyhledávání.
Specializované crawlery hledají stránky obsahující údaje, jež odpovídají
určitým kritériím. Jenssenová umí rozpoznat skryté nebo nepřímé odkazy pomocí
procesu, který sama připodobňuje k dětské hře "samá voda přihořívá hoří."
Vysvětluje to na příkladu webového crawleru, jenž se specializuje na oblast
počítačových věd. Výsledky výzkumů v této oblasti jsou často na stránkách
výzkumných pracovníků, kteří je napsali, a jejich stránky obsahují odkazy na
jejich domovské univerzity. "Když se crawler dostane na stránky univerzity, pak
hledá cíleněji než na stránkách nějaké firmy," tvrdí Jenssenová. "Říká:
přihořívá."
Filippo Menczer, profesor počítačových věd na alabamské univerzitě, říká, že
běžné vyhledávače určují relevanci dokumentu na základě izolovaného zvážení
různých kritérií. Například mohou nejprve zvolit dokument proto, že obsahuje
daná klíčová slova. K vyhodnocení pořadí následně vezmou v potaz, kolik odkazů
na tento dokument směřuje. Lepších výsledků by podle jeho názoru bylo možné
docílit zvážením mnoha takových "měřítek relevance" včetně preferencí uživatele
v jejich kombinaci a na základě kombinace vyhledaných stránek, nikoliv
jednotlivých dokumentů.
Takovéto komplexní a silné vyhledávače budou podle jeho názoru dostupné v praxi
během tří až pěti let, kdy výkony počítačů opět vzrostou. "Budeme provádět
dolování dat hrubou silou ve velkém rozsahu po celém webu napříč mnoha
terabajty informací," upřesňuje Menczer.

Studnice dat
Hrubá síla to je celkem přesný popis práce ohromného linuxového clusteru IBM
WebFountain, na němž nepřetržitě běží 9 000 programů, procházejících každým
dnem 50 milionů nových stránek. Ale WebFountain neprovádí prosté indexování
slov; využívá analýzy přirozeného jazyka k extrahování významu z
nestrukturovaného textu.
Tak například určuje, zda je daná entita jménem osoby, firmy, místa, produktu a
podobně, a následně k ní připojuje XML metadata, v nichž lze vyhledávat.
"Značkujeme celý web, diskusní skupiny a další zdroje," říká Dan Gruhl,
šéfarchitekt WebFountain z výzkumného centra IBM.
Použitý software podle Gruhla funguje již dnes velmi dobře je úspěšný pokud jde
o extrahování a označování sémantického významu nestrukturovaného textu. "Ford
Explorer je skvělý takový výraz je snadné klasifikovat," upřesňuje Gruhl. "Ale
pokud by zákazník sarkasticky řekl: ,Je skoro tak dobrý, jako je Ford Pinto,
pak je to pro sémantickou analýzu obtížný úkol. Analýza smyslu takovýchto
výroků je jedním z cílů výzkumu IBM."

Extrakce entit
"Odvětví hledání a správy obsahu se povětšinou zabývá nestrukturovanými nebo
polostrukturovanými informacemi, nikoliv transakčními daty v relačních
databázích," říká Prabhakar Reghavan, šéftechnolog firmy Verity. Podle něj má
většina celosvětově zaznamenaných údajů nestrukturovanou podobu, přesto mají
tato data pro firmy menší hodnotu než údaje v jejich relačních databázích. A
důvod? Zjištění jejich jednoznačného významu je obtížné.
"My potřebujeme vzít hromady slov a přidat k nim různé formy struktur,"
vysvětluje Reghavan. Technologie, která má tento úkol, tedy extrakci entit na
starosti, je podle jeho slov již poměrně robustní. Zvládne již relativně
spolehlivě určit, že některá slova označují jména osob, firem, zeměpisných míst
a podobně.
Ale i když jsou nástroje pro extrakci entit poměrně vyspělé, aplikace, které
tyto nástroje využívají třeba systém pro třídění žádostí o zaměstnání -,
bohužel nikoliv. "Aplikace se dosud nedostaly tak daleko, aby firmy mohly říci:
Dobrá, mohly bychom místo našeho systému lidských zdrojů využít jednu z
takových věcí."
"Z technického hlediska jsme ve stadiu, kdy můžeme říci, že systém umí přečíst
e-mail od zákazníka a zjistit, kterému oddělení patří, zjistit odesílatele a
skutečnost, že se jedná o významného zákazníka, a na základě toho tento e-mail
předat vyšší úrovni podpory. Umí dokonce provést i analýzu nálady třeba zda je
odesílající zákazník rozzloben," tvrdí Reghavan. Ale zde už leží hranice jeho
schopností.
"Pokud byste dnes řekli, že firma může vzít svůj CRM systém, jenž spoléhá na
databázi, a přeměnit jej v mnohem větším rozsahu tak, aby využíval textový
obsah, pak byste získali určité zájemce. Ale ti by řekli: Tak nám to ukažte. A
na nás je, abychom to dokázali," uzavírá Reghavan.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.