Portály se stávají odborníky na češtinu

V roce 1996 byly první dva české portály U zdroje a Seznam pouhými katalogy, které nenabízely ani fulltextové vyhledá...


V roce 1996 byly první dva české portály U zdroje a Seznam pouhými katalogy,
které nenabízely ani fulltextové vyhledávání. Kdo naopak dnes navštíví Seznam
nebo Centrum, zjistí i pouhým letmým pohledem, k jakým změnám došlo.Řada
dalších metamorfóz je přitom pro uživatele téměř neviditelných,o to ale
významnějších.
S jakými inovacemi české portály přišly v první polovině roku 2003? V krátkosti
lze odpovědi shrnout do třech bodů. Jde o důraz na vlastní služby,
specializované databáze a lepší práci s češtinou.

Rozdělení katalogu
Jako první zveřejnil letos své plány Seznam. Firma už dopředu avizovala,že
hodlá oddělit katalog nekomerčních stránek od webových prezentací firem. K celé
přestavbě opravdu došlo, přičemž provozovatelé katalog navíc doplnili malými
screenshoty jednotlivých stránek.
Nový katalog Seznamu sklidil mezi odborníky spíše kritiku pro jisté neduhy
provázející přeměnu; některé záznamy při přestavbě údajně prostě vypadly a
samotné rozdělení je podle mého názoru lehce matoucí. (Např. webová stránka
Computerworldu by se správně měla nacházet kde? Jde o projekt fungující na
komerčním základě,patří ale Computerworld do katalogu firem? Nyní ho najdeme v
nekomerční části mezi specializovanými časopisy.)
Záměr provozovatele je nicméně jasný: Oddělený katalog firem, který by
výhledově konkuroval např. Zlatým stránkám, představuje produkt s jasně
definovatelným obchodním využitím. Představitelé Seznamu díky tomu doufají ve
velmi rychlou návratnost vložených investic.
Co se týče dalších inovací, v nekomerční části katalogu začal Seznam jednotlivé
stránky řadit podle relevance; ta se počítá především z množství odkazů, které
na hodnocenou stránku vedou zvenku. Katalog firem zase nabízí třídění podle
regionů, což je funkce důležitá pro uživatele i inzerenty.
Změny se netýkají pouze katalogu. Seznam současně expandoval na pole tištěných
médií (magazín Sreality) a upravil svoji hlavní stránku tak,aby více
propagovala jeho další služby, zejména zpravodajství Novinky.cz. Seznam tak
následoval proměnu, kterou už v loňském roce prošlo Centrum (a předtím Yahoo).
Portály se nyní snaží stále více propagovat své vlastní služby: zpravodajství,
webhosting,webový e-mail, chat, prodej letenek a další on-line
obchody,specializované služby z oblasti automobilismu či realit, mapy,seznamky,
slovníky či nabídku pracovních míst.
Původně klíčový katalog je pak zatlačován stále více do pozadí, respektive mimo
oblast viditelnou při úvodním načtení stránky. Vyhledávač připomíná pouze
jediné políčko. Z hlediska uživatele se stírá rozdíl mezitím, zda je hledáno ve
fulltextu nebo v katalogu (proto nakonec už pro uživatele není rozhodující ani
konkrétní podoba katalogu,např. tedy ono rozdělení na katalog firem a
nekomerční stránky).Fulltextová technologie přináší každopádně provozovatelům
portálu řadu výhod, neboť databáze je v tomto případě vytvářena automaticky
robotem. Naproti tomu u katalogů byly portály závislé na spolupráci tvůrců
stránek a jednotlivé položky bylo navíc potřeba ručně kontrolovat. Očekává se,
že provozovatelé Seznamu se proto jako další krok chystají inovovat i své
fulltextového vyhledávání.Jak dále uvidíme, konkurence se tímto směrem již
vydala a dosáhla významného pokroku.
Ředitele a majoritního akcionáře Seznamu Ivo Lukačoviče jsme se zeptali, zda
firma hodlá realizovat i další "kamenné" projekty typu Srealit. Jeho odpovědí
bylo, že z hlediska Seznamu jde o projekt do značné míry unikátní a žádné další
kamenné aktivity prozatím plánovány nejsou. Lukačovič současně vyzdvihl pozici,
kterou získaly Novinky.cz prakticky ihned po svém propojení s Právem. Seznam v
tomto i v jiných případech funguje také v roli mediálního zastupitelství, stará
se tedy o obchodní využití on-line médií.

Směrem k databázím
Přejděme nyní od Seznamu k Centru. "Nekatalogový" kabát oblékl tento portál již
v loňském roce a letos se přidala také změna fulltextové technologie WebFast
nahradilo Morfeo. Speciálním vlastnostem Morfea se budeme věnovat v další části
této Cover Story, na tomto místě stojí pouze za upozornění, že provozovatelé
chtějí starší verze své vyhledávací technologie vždy uvolňovat jako open source.
Provozovatelé Centra současně oznámili záměr provázat své služby na aktuální
informace ve specializovaných databázích. Jinak řečeno:Zatímco v minulosti se
uživatel portálu uvažující o koupi bytu obvykle dostal na hlavní stránku nějaké
realitní kanceláře či realitního serveru a teprve odtud prohledával aktuální
nabídku,nyní by se celý proces měl minimálně o jeden krok urychlit. Portál se
bude snažit odkazovat přímo na konkrétní a aktuální záznam ve specializované
databázi.
Jak takového zefektivnění docílit?V první řadě musí být uživatelův dotaz
správně rozpoznán (viz dále část o porozumění přirozenému jazyku). Druhou
otázkou je vlastní technické řešení. Nejjednodušší situace nastává, pokud je
příslušná specializovaná databáze přímo součástí portálu v takovém případě
uživatel vlastně vystačí s obsahem portálu a vůbec z něj nemusí namířit do
"zbytku" internetu. To je pro portály samozřejmě výhodné a právě proto se tyto
snaží nejen mapovat internet, ale také návštěvníka udržet na svém vlastním
obsahu.Přitom stojí za to si uvědomit, že především noví uživatelé internetu se
budou zajímat hlavně o omezený okruh praktických problémů,jako je jízdní řád,
telefonní číslo, slevová akce, program televize či předpověď počasí. Portály
pak mohou v řadě případů opravdu suplovat roli internetu jako takového.
V Seznamu ani Centru samozřejmě nemusejí opisovat telefonní seznamy. Existují i
další cesty. Portál může spolupracovat s provozovateli specializovaných
databází, i když tito zůstanou nezávislí. Obě strany se v takovém případě
předem dohodnou na určitém způsobu výměny dat. Dotaz do specializované databáze
pak portál přepošle svému partnerovi a výsledek vyhledávání v (cizí) databázi
třeba opět začlení do svého designu. Portál přitom může mít aktuální podobu
partnerské databáze také fyzicky přímo zreplikovanou na svých serverech.
Konečně poslední možností je snažit se mapovat databáze bez dohody se třetí
stranou. Zde se dostáváme na poměrně tenký led otázek o tom, co je a co není
legální (viz např. právní spory probíhající v USA, v nichž se řeší, zda má
provozovatel právo zakázat odkazy mimo svou hlavní stránku). Související
problémy každopádně ukazují,že mezi portály a specializovanými servery existuje
kromě motivace ke spolupráci i řada třecích ploch.
Co dalšího chystají v Centru?Podobně jako Seznam hodlá i Centrum podle slov
svých představitelů vytvářet vlastní databáze firem a věří na výhody, které
přinese důsledná regionalizace poskytovaných informací. Katalog Centra je
prozatím řazen pouze abecedně.

Zakřiknutý Atlas
Zatímco provozovatelé Centra i Seznamu svými ideami a záměry žurnalisty
pravidelně bombardují, o inovacích v Atlasu podávají jeho provozovatelé
podstatně méně zpráv dalo by se říci, že firma v tomto ohledu své konkurenci
vyklízí pole.
Atlas v tuto chvíli připomíná portál starého střihu, tedy především katalogový
vyhledávač. Od uvedení velmi kvalitní mapové služby, která představovala jednu
z prvních implementací technologie Microsoft .Net v České republice, na sebe
Atlas dlouhou dobu výrazněji neupozornil (alespoň pokud pomineme snahu získat
pozici v oblasti on-line zábavy tyto projekty se obvykle nějak vztahují k nově
uváděným filmům). Změna nastala až v souvislosti s přechodem na novou
vyhledávací technologii Jyxo, která na Atlasu nahradila WebFast NetCentra
(dočasně takexistovala paradoxní situace, kdy Atlas využíval fulltextovou
technologii svého bezprostředního konkurenta).
Vlastní fulltextové technologii Jyxo se věnujeme na jiném místě tohoto článku.
Cose týče nasazení Jyxa v katalogu Atlasu, také zde se přešlo k řazení
jednotlivých stránek podle jejich kvality/relevance. Měřítkem kvality je pak
mj. opět množství odkazů, které na daný zdroj směřují zvenku.

Čeština všemi pády
Na rozdíl od zahraničních vyhledávačů mohou jejich současní domácí konkurenti
nabídnout uživatelům také funkce, které zohledňují speciální vlastnosti naší
mateřštiny. Zřejmě nejvýznamnější je v tomto případě podpora ohýbání slov
(lemmatizace). Tuto funkci mají v současné době implementovány dvě technologie:
Morfeo (následník WebFastu, kromě stránek www. morfeo.cz je tento fulltext také
součástí Centrum.cz,jehož provozovateli je vyvíjen) a Jyxo (dílo nezávislé
firmy,které kromě www.jyxo.cz dnes pohání také Atlas a Quick).
Poměrně podrobné testy, kterým jsme obě technologie podrobili, ukázaly,že
lemmatizace je implementována kvalitně. Např. Morfeo dokáže na zadání dotazu
"city slečna sněhem" vrátit jako první v pořadí odkaz na dokument pojednávající
o knize "Cit slečny Smilly pro sníh". Všimněte si, že se zde jedná o skutečnou
lemmatizaci a převody slov mezi základními a odvozenými tvary, nikoliv pouze o
rozšiřování výrazů ve stylu různých hvězdičkových konvencí.
Morfeoa Jyxo nabízejí přitom i další funkce speciálně vztažené k češtině.Jde o
kontrolu překlepů a nabídku na vyhledávání synonym, respektive"podobných
témat" (všechny tři možnosti včetně lemmatizace si uživatel může volitelně
vypnout). U kontroly překlepů jsem jako drobný nedostatek v případě obou
technologií zaregistroval nezohlednění poměrně častých záměn vyplývajících z
rozmístění znaků na české klávesnici (Y"Z, 8"á apod.).
Co se týče srovnání použitelnosti,v anketě na serveru Lupa preferovala většina
hlasujících Jyxo před Morfeem. Podle vlastních zkušeností mi vychází Morfeo o
něco lépe z hlediska relevance vracených dotazů i některých doplňujících
funkcí. Jyxo ovšem konkurenci jasně poráží co se týče aktualizace svého indexu.
Řada zpravodajských serverů je na Jyxu aktualizována se zpožděním pouhého
jediného dne.
Produktová manažerka společnosti NetCentrum Zuzana Humlová se vyjádřila, že
rychlost aktualizace databáze Morfea by se měla výrazně zlepšit v průběhu
letošního podzimu. Michal Illich, který vyvinul jádro technologie
Jyxo.cz,naopak k přednostem své technologie uvádí: "Na Jyxu máme kromě ohýbání
slov ještě syntaktický rozbor zkoumání vztahů mezi slovy,díky kterému
zpřesňujeme vyhledávání víceslovných dotazů."
Každopádně dávají Jyxo i Morfeo uživateli dostatečný důvod, aby je při
prohledávání česky psaných stránek upřednostňoval před Googlem. Obchodním
modelem provozovatelů Jyxa je nabídka této vyhledávací technologie třetím
stranám, stejně tak lze ale využít i Morfeo (které je,pokud pomineme výlet na
Atlas, základem např. pro fulltext iDnes).

Obtížné porozumění
Posledním a zřejmě nejobtížněji řešitelným požadavkem na současné vyhledávače
je sémantika, tedy rozpoznání smyslu toho, na co se uživatel vlastně ptá. Jak
už jsme uvedli, např.po zadání "hledám pronájem 2 + kk Nové Butovice" by
vyhledávač měl odpovědět přímo odkazem na nějakou aktuální nabídku. K tomu
kromě vazby na specializovanou databázi ale potřebuje disponovat ještě dalšími
dovednostmi. Vyhledávač by měl pochopit, že výraz"hledám" je irelevantní,
znaménko "+" není logickým operátorem a cílem uživatele je pronájem bytu v
pražské čtvrti, takže dotaz by měl být provázán na databázi realit.
Porozumění přirozenému jazyku bude mít stále větší význam i proto, že noví
uživatelé internetu nebudou patřit mezi počítačové specialisty a jejich
komunikace s portálem bude podobná např. dotazům kladeným telefonicky.
Z hlediska provozovatelů portálů přitom zvládnutí sémantiky představuje velmi
obtížný a zřejmě pouze částečně řešitelný problém. Je jistě možné např.
analyzovat dotazy uživatelů a zkoušet systém modifikovat podle jejich chování.
Odstranění určitých irelevantních slov z dotazu je záležitostí speciální
databáze "bezobsažných" slov(viz také článek na str. 12). Dokonalé porozumění
přirozenému jazyku je ovšem stěží dosažitelné bez umělé inteligence, která by
pracovala s nějakým modelem vnějšího světa takový systém byprostě nějak
"věděl", že Nové Butovice jsou pražskou čtvrtí.
Fakt, že chytré vyhledávání přinese konkurenční výhodu, možná v blízké
budoucnosti povede k pokroku na poli počítačové lingvistiky.Např. NetCentrum
již dnes takto spolupracuje s Ústavem formální a aplikované lingvistiky na MFF
UK Praha.

Kdo bude vítězem?
Co se týče počtu uživatelů, Seznam si v tuto chvíli udržuje značný náskok:
Používá jej více než 2 miliony unikátních návštěvníků,zatímco jeho konkurenti
dosahují čísel stěží polovičních. Málokdo by tedy předpokládal, že firma
provozující Seznam může vypadnout ze hry. Pokud máme hodnotit střet mezi
Atlasem a Centrem, otázka je to složitější.
V anketě na serveru Lupa (http://www.lupa.cz/clanek.php3?show=2892)sázela
většina hlasujících, že nejrychleji rostoucím portálem se stane Centrum.
Statistická data pocházející z iAuditu se dají interpretovat téměř nekonečným
počtem způsobů, před prázdninami nicméně (snad) dávala větší šanci Centru. "Při
výrobě grafů a tabulek jsem se nemohl ubránit dojmu, že Atlasu jakoby začínal
trochu docházet dech," uvádí na Lupě velmi opatrně editor tohoto serveru Mirek
Zeman.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.