Jak si stojí vyhledávače?

Na českém internetu jsou dnes používány dvě hlavní fulltextové technologie: Empyreum, které je nasazeno např. na Sez...


Na českém internetu jsou dnes používány dvě hlavní fulltextové technologie:
Empyreum, které je nasazeno např. na Seznamu, Atlasu a RedBoxu, a WebFast
vyvinutý pro služby společnosti NetCentrum.
Jak jsou na tom oba hlavní projekty s lemmatizací?

Empyreum
"Technologie Empyreum Fulltext lemmatizátor neimplementuje," uvádí Karel Pánek
ze společnosti Empyreum. "V průběhu vývoje kterékoliv technologie testujeme
vlastnosti různých metod a v případě většiny relevančních, resp. vyhledávacích
algoritmů pracujících na bázi konkrétních slovníků jsme dospěli k závěru, že
jejich využití prozatím není žádoucí... Lemmatizátor a podobné nástroje jsou
jistě užitečné, pokud si jejich funkci uživatelé dobře uvědomují. V běžné praxi
je však podle mého názoru třeba upřednostnit přirozené předpoklady uživatelů a
poskytnout jim tak nástroj nejen rozsáhlý, ale především efektivní." A do
budoucna? "Z výše uvedeného vyplývá, že o zavedení lemmatizátoru prozatím
neuvažujeme," říká Pánek. Na dotaz, čím se technologie Empyreum liší od své
konkurence, uvádí například schopnost indexovat speciální formáty.

WebFast
"Lemmatizátor dosud nepoužíváme, ale v příští verzi bychom jej rádi zavedli,"
tvrdí naopak Martin Mareš, autor vyhledávacího stroje Sherlock, na kterém je
postaven WebFast společnosti NetCentrum.
A proč zatím kvalitní lemmatizátor na českých vyhledávačích podle něj schází?
"Svého času existoval vyhledávač jménem Megatext, který lemmatizaci uměl, ale
jednak se po něm již země slehla, jednak bohužel ve všem ostatním byl silně
podprůměrný, takže téměř nepoužitelný... Vyvinout si vlastní morfologický
analyzátor nebo lemmatizátor je dosti pracné, takže ti, kdo mají vlastní vývoj,
většinou soustředí své úsilí na funkce, které lze implementovat snáze. Kdo
naopak pouze provozuje cizí vyhledávač, obvykle v něm žádnou lemmatizaci
nenajde, protože angličtina netvoří nijak komplikované slovní tvary, tudíž
lemmatizátoru není nijak výrazně zapotřebí."
Co se týče technologie Sherlock, zájemci mohou navštívit stránku
http://atrey.karlin.mff.
cuni.cz/~mj/sherlock.shtml, kde je jedna z verzí tohoto softwaru dostupná také
pod licencí GNU GPL.

Další názory
Karel Pánek, odborník na vyhledávací technologie, který své příspěvky na toto
téma publikoval na serveru Lupa (jedná se pouze o shodu jmen s Karlem Pánkem ze
společnosti Empyreum), soudí, že jediný český vyhledávací engine, který má
lemmatizaci implementovanou, je aspseek a v jeho případě je lemmatizace bohužel
nekvalitní. Pánek soudí, že lemmatizaci v doméně cz přitom nestojí v cestě
zásadnější překážky. Prodloužení doby řešení dotazu a nárůst datových struktur
by od zavedení lemmatizátorů neměly odrazovat. České vyhledávací servery totiž
pracují s daleko menší bází dokumentů než jejich zahraniční protějšky a ani
cena hardwaru již není takovou překážkou.
Podle Pánka by se lemmatizace měla provádět zřejmě při indexování a uživatel by
si mohl vybrat, zda chce používat lemmatizované nebo stávající seznamy.
Osobně se domnívám, že lemmatizace by měla smysl právě pro méně zkušené
uživatele, kteří zadají výraz "bedla", aniž jsou si vědomi toho, že systém jim
nenajde stránku s textem o "nálezu tisíců bedel", pokud se zde název houby
nebude vyskytovat také v prvním pádě. Zkušenější uživatelé si naproti tomu
zřejmě tuto možnost uvědomí a dokáží zformulovat nějaký složitější dotaz typu
"bedl* or bed?l*", kde otazník odpovídá jedinému znaku a hvězdička libovolnému
řetězci znaků.
Fakt, že lemmatizace se nepoužívá v internetových vyhledávačích, samozřejmě
neznamená, že se nepoužívá vůbec. Umí ji údajně např. technologie Uffo (další
informace viz http://www.uf fo.net) a bývá obsažena i v nástrojích dodávaných
spolu s elektronickými slovníky.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.