Vyhledávače si s češtinou rozumějí

Pokud chtějí české vyhledávače obstát v zahraniční konkurenci, jako jedna z možných konkurenčních výhod se nabí...


Pokud chtějí české vyhledávače obstát v zahraniční konkurenci, jako jedna z
možných konkurenčních výhod se nabízí bezprostřední vztah jejich tvůrců k
našemu mateřskému jazyku. V následujícím článku se zaměříme na dvě technologie
fulltextového prohledávání, které zvládají ohýbání slov tedy aspekt, jímž se
čeština od angličtiny výrazně odlišuje a který např. Google nepodporuje.
Podíváme se i na další trendy, jimiž se ubírají internetové vyhledávače. Budou
v blízké budoucnosti schopné zadávaným dotazům skutečně rozumět?
Dvěma výše zmíněnými pokročilými fulltextovými technologiemi jsou Morfeo a
Jyxo. Morfeo je vyvíjeno společností NetCentrum (provozovatel portálu Centrum),
která přitom spolupracuje také s akademickou sférou. Na naše dotazy odpovídají
produktová manažerka vyhledávání ve společnosti NetCentrum Zuzana Humlová,
vedoucí vývojář Morfea Martin Mareš a ředitel a vědecký pracovník Ústavu
formální a aplikované lingvistiky (ÚFAL) MFF UK Jan Hajič.

V jakých případech přispívá podpora češtiny (především ohýbání slov) ke
zlepšení přesnosti/relevance vyhledávání nejvíce?
Zuzana Humlová: Pokud vyhledávač podporuje češtinu, výrazně usnadňuje
uživatelům vyhledávání, neboť je nenutí přemýšlet, v jaké podobě mají dotaz
zadat.
V absolutní většině případů ohýbání slov pomáhá, avšak víme i o případech, ve
kterých není současná morfologie ideální např. pokud hledáte "lety do vesmiru",
hledají se zároveň "roky do vesmiru" neboť vyhledávač považuje slovo "lety"
odvozené také od slova "rok". Proto má zatím uživatel ponechánu možnost ohýbání
slov vypnout.
Do budoucna plánujeme pro vylepšení této funkce využít syntaktickou analýzu,
která se snaží zachytit závislosti mezi jednotlivými větnými členy, a
sémantickou analýzu, která zjišťuje význam textu.

Jak se vlastně nástroje pro podporu ohýbání češtiny (lemmatizátor, derivátor)
vyvíjejí?
Jan Hajič: Nástroje na podporu ohýbání češtiny jsou vyvíjeny od konce 80. let.
Nejprve vznikly slovníky pro kontrolu pravopisu, později se z nich vyvinuly
nástroje pro lemmatizaci a tzv. tvaroslovnou (morfologickou) analýzu dnes tyto
programy umějí téměř všechno to, co se děti učí na základní škole o skloňování
a časování slov, tj. například určit slovní druhy, rody, čísla, pády, časy apod.
Vlastní programy nejsou náročné, ale slovníky se vyvíjejí ručně je nutné do
nich zabudovat příslušnou znalost tvarosloví pokud možno pro všechna slova,
která se mohou v češtině vyskytnout, včetně všech výjimek a těch je v češtině
požehnaně. Slovník používaný na www.centrum .cz obsahuje přes 800 tisíc českých
slov, přesto se určitě najdou slova (zejména právě mezi vlastními jmény), která
analyzovat neumí (nebo ve kterých je přes veškerou snahu nějaká chyba). Takový
slovník je proto třeba neustále vyvíjet, doplňovat, zdokonalovat a testovat.
Jako každá "ruční" práce velkého rozsahu to jde pomalu. Vznikají však už
statisticky podložené metody pro alespoň částečnou automatizaci vkládání nových
slov do takových slovníků.

Proč s nástroji pro podporu ohýbání slov vyhledávače přišly až relativně
nedávno? Je to tak náročné?
Jan Hajič: České lemmatizační slovníky se používají již delší dobu v několika
produktech na českém trhu (např. známý systém právních informací ASPI). Ve
vyhledávačích se dlouho nepoužívaly snad proto, že jejich technologie byla
dlouho přebírána z anglicky mluvících zemí, kde tento problém téměř neexistuje
(nebo se dá jednoduše obejít).
Zuzana Humlová: V ČR se podobným směrem ubírají v podstatě jen 2 vyhledávače,
které na své technologii pracují relativně krátkou dobu. Důvodem jsou zřejmě
finance a s tím související inovační potenciál. Až v posledních 2 letech
poskytuje český internet dostatečné zdroje pro dlouhodobý vývoj takových
aplikací. Za poslední rok jsme do vyhledávání investovali přes 10 milionů Kč,
což je na český internet vysoká investice.

Na jaké hlavní problémy jste narazili při tvorbě lemmatizátoru a derivátoru a
jak jste je řešili?
Jan Hajič: Největší zátěž představuje pracnost tvorby slovníku, přidávání
nových slov. Dnes, kdy přidávaná nová slova jsou z větší části novotvary, slova
přejatá z angličtiny nebo jiných jazyků či vlastní jména firem, výrobků, lidí,
je někdy obtížné i pro rodilého Čecha určit, jak se slovo má správně ohýbat.
Ani z kontextu to není často poznat autoři se někdy tomuto problému úmyslně
vyhýbají a používají taková slova jen v základním tvaru.
Největším technologickým problémem použití lemmatizace však je tzv.
víceznačnost, kterou nelze řešit ve slovníku, ale jen dynamicky na základě
kontextu, ve kterém je slovo použito. Např. je posloupnost písmen "ž-e-n-u"
tvarem podstatného jména "žena" nebo slovesa "hnát"? Je "b-e-z" předložka (pro
vyhledávání asi celkem nepodstatná) nebo je to rostlina (např. černý bez)?
Spolehlivě rozlišovat mezi takovými variantami není vlastně možné bez hlubokého
porozumění textu to si dnes nemůžeme dovolit a ani to dokonale neumíme.
Existují statistické metody, které takové rozlišení dokážou s chybovostí 3-5 %;
dosud však není jasné, zda by takovou chybovost uživatelé akceptovali, nebo ne.
Ve většině praktických aplikací se proto tyto metody ještě nepoužívají, a
víceznačnost se raději řeší tak, že uživateli se prezentují všechny možnosti a
vyčištění výsledků od případného "balastu" si tedy zatím musí udělat sám. Nutno
dodat, že ani ve světě nejsou takto pokročilé metody používány, i když i
angličtina pochopitelně má s víceznačností stejný (ne-li ještě větší) problém.

Jsou starší verze Morfea uvolněny jako open source, respektive s jakým omezením?
Martin Mareš: Starší verze Morfea, lépe řečeno systému Sherlock Holmes, na
kterém je Morfeo založeno, je volně k dispozici na http://www.ucw.cz/hol mes/.
Tato verze je velmi podobná tomu, jak Morfeo vypadalo na podzim loňského roku,
pouze chybějí některé moduly (např. morfologie, indexování obrázků a dynamické
váhování stránek) a licence omezuje volné využití na indexy do 100 000
dokumentů.
Nynější Morfeo obsahuje mnoho nových vlastností, z nichž část se jistě dostane
do nové volně šiřitelné verze, která bude velmi pravděpodobně distribuována pod
licencí GNU GPL.

Pojmem sémantika míníme většinou obsah/význam nějakého sdělení. Jak chápat
podporu sémantiky ve vyhledávači? Co si představit pod tím, že vyhledávač bude
jazyku "rozumět"?
Martin Mareš: Sémantická analýza textu je obor, který lingvisté studují již
několik desítek let, ale ještě stále nedokáží z textu žádné netriviální
informace extrahovat. Proto i vyhledávače "rozumějí" textu jen velmi omezeně,
dalo by se říci, že pouze na lexikální a syntaktické úrovni, ne na rovině
sémantické. Naštěstí pro nás platí, že syntaktické porozumění textu obvykle
docela dobře aproximuje to sémantické.

Dá se říci, že dvě dříve oddělené kategorie, tedy katalog a fulltext, postupně
splývají? Je dnes katalog ve větší míře využíván tak, jako řekněme v 2.
polovině 90. let, tedy k postupnému proklikávání do stále "vnořenějších" úrovní?
Zuzana Humlová: V současné době stálé méně uživatelů využívá katalog
procházením sekcemi. Mnohem jednodušší je použít vyhledávání. Vzhledem k tomu,
že katalog nemůže nikdy obsáhnout všechny stránky na internetu, přesto však
obsahuje cenná ručně editovaná data, snaží se Centrum.cz co nejvíce integrovat
katalogová data s fulltextem.

Jak je v tuto chvíli řešena aktualizace databáze na Centru/Morfeu?
Zuzana Humlová: Momentálně je to tak, že Morfeo běží na 6 počítačích, z nichž 2
sbírají data z webu, jeden generuje index a zbylé 3 odpovídají na dotazy.
Stránky jsou aktualizovány v 28denních cyklech, přičemž pro každou stránku
individuálně počítáme, kolikrát za cyklus se má aktualizovat. Stránka se za
tento cyklus může aktualizovat jednou až 8krát tato hodnota závisí zejména na
váze stránky a na tom, jak rychle se její obsah mění. Z těchto dat generujeme
index jednou za 3 dny. Mimo to používáme ještě pomocný index, ve kterém jsou
zprávy a podobně často aktualizované stránky ten se generuje jednou za hodinu.
Jak přesně probíhá nastavování vah jednotlivých kritérií?
Zuzana Humlová: Váha stránky se určuje podle několika kritérií, z nichž
nejdůležitější jsou:
Váha za dotaz započítává se počet, typ a vzájemná poloha nalezených slov (zda
se hledané slovo nachází v titulku, popisku, katalogovém titulku, zda je tučně
apod.).
Dynamická váha stránky počítá se automaticky podle počtu odkazů na stránky a
podle kvality těchto odkazů. Tuto váhu využíváme kromě třídění stránek ve
výpisu vyhledávání také jako zpětnou vazbu pro katalog (například třídění v
sekcích, řazení výsledků z katalogu) a pro gatherer robot, který stahuje obsah
stránek (určuje se podle ní, které stránky je lepší stáhnout a které raději
obětujeme, aby bylo místo pro další).
Mimo těchto dvou hlavních kritérií do celkové váhy započítáváme také ohodnocení
stránky administrátory katalogu, hloubku stránky v hierarchii webu, penalizace
(pokud stránky nemají titulek, mají málo textu nebo žádné odchozí linky, mnoho
tučného textu, nadpisů, stránka je v mnoha kopiích, ruční penalizace...) a
další.

Jaké další trendy podle vás nastanou ve vyhledávání?
Martin Mareš: To je velmi těžké říci, ale budoucnost určitě má pokročilejší
práce s jazykem (syntaktická analýza textu apod.) a různé tematické
kategorizace založené jak na metadatech uváděných autory stránek, tak na ručně
udržovaných informacích v katalozích. Také asi nastane rozsáhlejší využívání
odkazů mezi stránkami.
Zuzana Humlová: Do budoucna se bude určitě rozvíjet také integrace
fulltextového hledání s různými databázemi, neboť data z většiny databází zatím
fulltextové vyhledávače nedokáží nalézt. Uživatel by měl mít možnost nalézt
informace na jednom místě bez nutnosti hledat např. informace o pronájmech bytů
ve specializovaných databázích realitních serverů.
Dalším trendem, který nastane ve vyhledávání, bude zcela jistě personalizace
výsledků. Do budoucna se bude jistě dále rozvíjet regionalizace výsledků např.
tím způsobem, že uživatelům budou nabízeny výsledky pouze z těch regionů, které
byly vybrány pomocí personalizace.

Co je co?
Lemmatizátor: Nástroj, který převádí slova na jejich slovníkovou jednotku,
nejčastěji 1. pád jednotného čísla.
Derivátor: Nástroj, které k základnímu tvaru slova vygeneruje množinu všech
jeho tvarů. Derivace a lemmatizace jsou inverzními operacemi. Sémantika: Nauka
o významu/ /smyslu/obsahu textu nebo jiné informace.
Sémantika si všímá právě těch aspektů slov, které z nich činí něco více než jen
řetězce znaků. Je zřejmé, že sémantika je do značné míry záležitostí "lidského"
světa a pro počítačové zpracování je obtížněji uchopitelná než formální aspekty
jazyka.
SEO: Search Engine Optimization, optimalizace webových stránek pro vyhledávače.
Často kladené otázky a odpovědi týkající se problematiky SEO najdete např. na
adrese vyhledavace. info/seo-faq/ (v češtině). Příbuzným pojmem SEO je SEM
neboli Search Engine Marketing.

Jak se daří Jyxu?
Hlavním konkurentem Morfea je na českém internetu fulltextová technologie Jyxo,
která podobně jako Morfeo podporuje pokročilé funkce pro práci s češtinou. Za
Jyxo na naše otázky odpovídá provozovatel i hlavní vývojář technologie Michal
Illich.

V jakých případech přispívá podpora češtiny (především ohýbání slov) ke
zlepšení přesnosti/relevance vyhledávání nejvíce?
Přispívá zejména u víceslovných dotazů. Pro vyhledavač bez ohýbání slov by v
takovém případě bylo těžké najít dostatek relevantních dokumentů, ale když jste
jako Jyxo schopni najít všechny lingvistické tvary, máte větší výběr
odpovídajících dokumentů a tedy poskytujete přesnější a rozsáhlejší informace.

Jak se vlastně nástroje pro podporu ohýbání češtiny (lemmatizátor, derivátor)
vyvíjejí? Proč s nimi vyhledávače přišly až relativně nedávno? Je to tak
náročné?
Vývoj spočívá hlavně ve stálém zpřesňování a také přidávání novotvarů (např.
"blog"). Se skloňováním přišlo Jyxo v listopadu 2002, a přibližně půl roku
potom jej přidala i konkurence. Náročné je to především kvůli velké složitosti
a rozmanitosti českého jazyka.

Na jaké hlavní problémy jste narazili při tvorbě lemmatizátoru a derivátoru a
jak jste je řešili?
Hlavně na to, že ve slovníku jakkoliv je kvalitně zpracovaný nikdy nebudou
všechna slova. Vyhledávač musí mít i sekundární mechanismus, který mu umožní
skloňovat i ta ostatní (jména, řídká slova, poetické tvary, fantazijní slova).

Pod sémantikou míníme většinou obsah/význam nějakého sdělení. Jak chápat
podporu sémantiky ve vyhledávači?
Jyxo se pokouší pochopit strukturu textu, jeho členění. A to na všech úrovních:
celého textu (poznat nadpisy, odstavce, celky), věty (posuzovat vzájemnou
polohu větných členů) i slov (synonyma a ohýbání). Čím lépe budeme struktuře/
sémantice rozumět, tím lepší výsledky poskytneme uživatelům.

Dá se říci, že dvě dříve oddělené kategorie, tedy katalog a fulltext, postupně
splývají?
Podle mého názoru je katalog již přežitý. V zahraničí již prakticky zmizel
(dokonce i na Yahoo, které se jím proslavilo), v Čechách to do dvou let přijde
také.

Jak Jyxo řeší problém aktualizace své databáze?
Jyxo aktualizuje svou databázi každý den (vždy přes noc). U každého dokumentu
má vypočítanou periodu aktualizace podle dvou kritérií: zda se dokument v čase
mění a jak je důležitý/známý v rámci českého internetu.

Jak přesně probíhá nastavování vah jednotlivých kritérií?
Můžeme u vyhledávače měnit mnoho kritérií, vyvažujeme systém podle postřehů a
ohlasů našich uživatelů, SEO odborníků i našich vlastních. Také máme rozsáhlou
databázi dotazů a "správných odpovědí", takže jsme schopni automaticky
vyhledávač otestovat, zda při určitém nastavení vah odpovídá dobře.

Jaké další trendy podle vás nastanou ve vyhledávání?
Lepší porozumění přirozenému jazyku, integrace dalších zdrojů dat, zjednodušení
uživatelského rozhraní.

Zatímco Morfeo slouží především jako fulltext pro "klasický" portál Centrum.cz,
jak ekonomicky funguje Jyxo?
Jyxo se nyní specializuje na dodávky vyhledávací technologie portálům,
internetovým poskytovatelům, větším webům. Ekonomicky je na tom slušně od ledna
2003 je ziskové. V budoucnu bude Jyxo expandovat do zahraničí k tomu již
ostatně došlo, několik klientů máme i na Slovensku.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.