Záplavy prověřily české vyhledávače

Již v prvních dnech, kdy vydatné deště začaly zvedat hladiny českých řek, zažily internetové vyhledávače v domén...


Již v prvních dnech, kdy vydatné deště začaly zvedat hladiny českých řek,
zažily internetové vyhledávače v doméně cz zvýšený provoz. Lidé chtěli zjistit,
jaká je aktuální situace na nejbližším vodním toku, jaká je sjízdnost silnic. S
postupujícími záplavami pak fulltextové vyhledávače čelily stále většímu náporu
uživatelů.
Kvalitu českých vyhledávačů i informačních portálů si mohl ověřit v průběhu
ničivých povodní každý z nás. Možná vás při pročítání desítek odkazů získaných
z vyhledávače po zadání několika klíčových slov napadlo, jak vlastně takový
vyhledávač funguje. Pro správnou formulaci dotazu je pochopení některých
základních principů nezbytné.
Vyhledávací server v doméně cz vypadá na první pohled jako kopie svého
zaoceánského bratříčka. Pokud se soustředíme na fulltextové vyhledávání,
rozdílů zdánlivě ještě ubude. Jak se vlastně liší vyhledávání na českých
portálech od stejné činnosti na Googlu či AltaVistě, při kterém omezíme výstup
na doménu.cz? Má český fulltextový vyhledávač pro uživatele vůbec smysl?
Rozhodně má. Jako první důvod nás zřejmě napadne české rozhraní a propojení na
další lokalizované služby. Robot indexující pouze doménový prostor .cz bude
zřejmě schopen vytvořit kompletnější a častěji aktualizovanou databázi. Ale
existují i další důvody: čeština se totiž od ostatních jazyků přece jen
odlišuje, což vytváří potřebu určitých speciálních technologií. V první řadě
vás zřejmě napadne otázka diakritiky, ta je ovšem již poměrně dobře ošetřena.
Čeština je jazyk, který velmi silně využívá ohýbání slov (skloňování,
časování...). A zde se objevuje problém: Pokud hledáte určité slovo, měl by se
systém snažit pomoci vašemu dotazu a nabídnout vám ho ve všech tvarech? Nebo se
domníváte, že vyhledávač má prostě hledat zadaný řetězec znaků a nesnažit se
být chytřejší než uživatel? Účelná se zdá být spíše první možnost. Jinak totiž
v podstatě neexistuje způsob, jak najít například všechny tvary slova dům (2.
pád bez domu) konstrukce typu "d?m*" jsou poněkud krkolomné. Jednou z možností,
jak se vypořádat s uvedeným problémem, představuje tzv. lemmatizátor. České
vyhledávací servery ovšem tuto technologii implementovanou prakticky nemají.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.