Svet ontológií a agentov

Budúca podoba internetu Počas dlhých rokov svojej existencie prešiel internet mnohými zmenami. Od poskytovania čisto te...


Budúca podoba internetu
Počas dlhých rokov svojej existencie prešiel internet mnohými zmenami. Od
poskytovania čisto textových informácií protokolom gopher, cez rýchly nástup
kombinácie textu a obrázkov, až po súčasné dynamické či adaptívne weby alebo
webové aplikácie. Aké sú ďalšie perspektívy? Jednu, ale nie jedinú, možnosť
predstavuje sémantický web. Svet autonómnych agentov mÖže však na seba vziať
mnoho rÖznych podÖb.
Objem informácií na súčasnom webe je obrovský; vyhíadávacia služba Google
indexuje viac ako 3,3 miliardy webových stránok. Toto množstvo je však len
časťou všetkého on-line prístupného obsahu. Mnohé stránky nie sú z rÖznych
dÖvodov prehíadávacím službám prístupné (na požiadanie dynamicky generované
stránky, stránky s prístupom pomocou autentizácie používateía, explicitný zákaz
indexácie prehíadávacími službami a pod.) a mnohé dokumenty na webe sú uložené
v rÖznych ojedinelých formátoch.
Prehíadávanie takéhoto heterogénneho obsahu obrovskej kvantity sa stáva čoraz
ťažšie. I keď sa vyhíadávacie služby neustále zdokonaíujú, stále horšie sa
dosahuje dobrá presnosť vyhíadávania, t.j. pomer medzi nájdenými dokumentmi,
ktoré sú pre používateía vyhíadávacej služby skutočne relevantné, a všetkými
dokumentmi nájdenými vyhíadávacou službou.

Problémy HTML
Problémom automatického vyhíadávania informácií je to, že najpoužívanejší
formát na prezentáciu údajov na súčastnom webe, hypertextový značkovací jazyk
(HTML, hypertext markup language) nepopisuje štruktúru údajov, ale iba ich
spÖsob zobrazenia na obrazovke počítača. Napríklad na rozčlenenie stránky sa v
drvivej väčšine prípadov používajú tabuíky napriek tomu, že ich obsah je v
drvivej väčšine prípadov "netabuíkový".
Takmer akokoívek komplikovaná webová stránka je pre človeka na prvý pohíad
pochopiteíná, ale počítač má pri jej "pochopení" veíké problémy. MÖže maximálne
zistiť, čo je názov stránky, vyselektovať dÖležité pojmy na základe toho, že sú
vyznačené tučným písmom a podobne, ale neexistuje spÖsob, ako by mohol stroj
"pochopiť" súvislosti medzi jednotlivými pojmami alebo časťami stránok.
I autor súčastnej podoby webu Tim Berners Lee je sklamaný. Predstavoval si svoj
nápad zrealizovaný značne odlišne: ako jeden obrovský rezervoár informácií,
alebo ešte lepšie znalostí, ktorý by všetci používatelia nielen pasívne
využívali, ale by do neho aj aktívne prispievali. To mal Lee na mysli, keď
hovoril o webe ako o interaktívnom. Bol sklamaný, keď médiá začali web
označovať ako interaktívny iba preto, "lebo sa na ňom dá klikať". Začal preto v
súvislosti so svojou predstavou webu hovoriť nie o interaktivite, ale o
interkreativite.

Prechod k sémantike
Spojiť heterogénne údaje z rÖznych zdrojov je veími ťažká úloha a v súčastnej
podobe webu realizovaného jazykom HTML je jej realizácia nemožná. Okrem toho,
že sa tie isté pojmy používajú na označenie rozličných vecí (tzv. polysémický
problém) a že sa na označovanie tých istých vecí používajú rÖzne pojmy (tzv.
synonymický problém), na súčasnom webe nie sú nijakým spÖsobom zachytené
významy jednotlivých pojmov ani vzťahy medzi nimi.
Riešením nastoleného problému mÖže byť vytvorenie sémantického webu, t.j. webu,
ktorý by nereprezentoval iba text ako reťazce znakov a obrázky ako matice
farebných bodov, ale web, ktorý by definoval pojmy a vzťahy medzi nimi (úvod do
problematiky sémantického webu viď CW 27/2003). A keďže ako bolo uvedené vyššie
v súčasnosti používané vyjadrovacie prostriedky webu v podobe jazyka HTML na
tento účel nepostačujú, je potrebné uvedený problém riešiť od základov.
Vyjadrovací prostriedok na popis údajov je XML (eXtensible Markup Language), čo
je metajazyk, umožňujúci definovať nové značkovacie jazyky, presne podía
potrieb konkrétnych aplikácií. Snahou je definovať také značkovacie jazyky,
ktoré nebudú popisovať, ako majú údaje vyzerať, ale čo znamenajú. Samotné
formátovanie, ktoré bolo dominantnou črtou jazyka HTML, sa odsúva mimo
definície údajov do tzv. štýlov. Okrem spomínaného oddelenia významu údajov od
ich konkrétnej reprezentácie sa týmto spÖsobom dosahuje aj veími pozitívny
bočný efekt, a to, že jedny a tie isté údaje možno z toho istého zdroja
reprezentovať rÖzne, aplikovaním štýlu podía potreby.
Ako príklad možno uviesť údaje s firemnej databázy: tie isté údaje sa budú
formátovať inak pre potreby automatického systému riadiaceho výrobnú linku a
inak pre potreby manažéra kontrolujúceho efektivitu prevádzky.

Nielen XML
XML je ale nástroj na veími nízkej úrovni, má teda aj patričné silné a slabé
stránky. Jeho silnou stránkou je vlastnosť všetkých nízkoúrovňových nástrojov:
dokáže sa vysporiadať s akýmkoívek problémov, t.j. XML dokáže popísať akékoívek
údaje a vzťahy medzi nimi. Tento popis je však technicky veími náročný, ale
hlavne neexistuje žiadny všeobecne prijatý štandard popisu údajov pomocou
čistého XML.
Ak si teda chcú dve strany napríklad zákazník a obchodník vymieňať informácie
napríklad cenníky vo formáte XML, musia vopred formálne definovať typy údajov,
ktoré si budú vymieňať, a spÖsob, akým budú tieto údaje popisovať. Toto sa deje
pomocou dokumentov DTD (Document type Definiton).
XML ale dáva veími dobrý základ na budovanie nástrojov na popis údajov a
vzťahov na vyššej úrovni. Za ďalší stupeň vyjadrovacích možností možno
považovať RDF (Resource Definition Framework). Kým XML popisuje iba štruktúru
údajov, RDF umožňuje popisovať tvrdenia platiace o údajoch, t.j. "údaje o
údajoch", tzv. metaúdaje. Nadstavbou nad RDF sú tzv. RDF schémy (RDFS), ktoré
umožňujú vytvárať RDF štruktúry. Pomocou RDF schém je možné vytvárať hierarchie
pojmov, čo je ďalší veími dÖležitý krok k dobrej reprezentácii významu t.j. k
sémantike informácií.
RDF a RDFS už poskytujú dosť dobré prostriedky na reprezentáciu informácií pre
účely sémantického webu. Sú však stále jednoduché a na nízkej úrovni, aby mohli
byť aplikovateíné na popis státisícov pojmov a státisícov vzťahov medzi nimi.
Na popis nejakého výseku reálneho sveta, tzv. konceptualizácie, sa preto
používajú formálne, explicitné špecifikácie, nazývané ontológie. To, že tieto
sú formálne a explicitné, zaručuje ich strojovú spracovateínosť.

Typy ontológií
Ontológie boli a sú predmetom skúmania umelej inteligencie za účelom
reprezentácie, zdieíania a opakovateíného použitia znalostí. A o to ide aj v
prípade sémantického webu: Umožniť znalosti konzistentne reprezentovať,
efektívne zdieíať a dovoliť ich široké použitie bez väčšej námahy. Je nutné
poznamenať, že na rozdiel od XML či RDF nie sú ontológie len prostriedkom na
popis pojmov a vzťahov medzi nimi, ale sú už výsledkom, konkrétnym popisom
nejakej doménovej oblasti, "výrezu reálneho sveta".
Aj ontológie existujú rÖzne, podía toho, čo popisujú. Ontológie popisujúce
všeobecné, v širokom meradle platiace pojmy, vzťahy a zákonitosti, sa nazývajú
generické ontológie alebo ontológie vyššieho rádu. Najčastejším typom sú ale
tzv. doménové ontológie, popisujúce nejakú konkrétnu problémovú oblasť (mÖže to
byť napr. medicína, architektúra, hutnícky priemysel a pod.). Ešte
špecifickejšie sú úlohové ontológie, ktoré sa zameriavajú na popis úloh a
metódy ich riešení. Na rozdiel od predtým spomínaných typov, ktoré sa
zameriavajú prevažne na reprezentáciu znalostí o svete, úlohové ontológie skÖr
popisujú procesy. Nakoniec najšpecifickejšie sú aplikačné ontológie,
prispÖsobené na konkrétne úlohy v konkrétnej doménovej oblasti.

Svet agentov
Prvým cieíom, ku ktorému smeruje myšlienka sémantického webu, je to, aby sa na
ňom rovnako dobre ako íudia dokázali pohybovať stroje, autonómne programové
agenty. Tieto agenty by mali v prvom rade slúžiť na vyhíadávanie informácií.
Toto vyhíadávanie by malo byť odlišné od toho, ktoré poznáme teraz. Súčastné
vyhíadávače pracujú s textom iba ako s reťazcami znakov bez toho, aby im
rozumeli. Dokonca sa im ani nesnažia rozumieť. Dnešné vyhíadávače teda
poskytujú iba nízkoúrovňový nástroj pre spracovanie informácií na vyššej úrovni.
Vyhíadávacie agenty by mali byť schopné smer prehíadávania webu aktívne
usmerňovať, rozpoznávať hierarchie pojmov, identifikovať synonymá a rozlišovať
rÖzne použitia toho istého pojmu (viď synonymický a polysémický problém
vyhíadávania spomínaný vyššie). Tieto vlastnosti bude možné dosiahnuť práve na
základe toho, že agenty budú rozumieť príslušným ontológiám, ktoré im povedia,
aké sú synonymá určitého pojmu, v akých rÖznych súvislostiach sa daný pojem
používa, čo je jeho zovšeobecnením, aké pojmy sú jeho špeciálnym prípadom a k
akým iným pojmom sa viaže.
Ďalším cieíom, pravdepodobne vzdialenejším predpokladá totiž úspešné
dosiahnutie prvého cieía je, aby spomínané agenty nielen informácie z webu
získavali, ale aby boli schopné ich aj do webu pridávať. Malo by sa tak diať na
základe komunikácie s používateími, keď by agent žiadal od používateía buď
spresnenie požiadavky na vyhíadávanie, alebo pomoc v situácii, keď už agent
nebude schopný pokračovať v prehíadávaní webu a odvodzovaní nových informácií.

Budúci vývoj
World wide web sa dynamicky menil za celú dobu svojej existencie. Je jasné, že
sa bude meniť aj ďalej. Či to bude smerom k sémantickému webu či akémusi
superbrainu je otázne. Možno vývoj narazí na neochotu zverejňovať informácie
pre iných a rozvinú sa spÖsoby obchodu s informáciami. Možno pÖjde vývoj úplne
iným smerom a myšlienky sémantického webu upadnú do zabudnutia, odkiaí ich opäť
niekto sčasu-načas vyberie a opráši. Isté je len jedno súčasný web sa bude
určite ďalej vyvíjať a všetko nasvedčuje tomu, že tento vývoj bude rýchly.

Web ako íudský mozog
Zaujímavý pohíad na web načrtáva prof. Sarnovský vo svojej knihe Kybernetický
svet (Elfa, Košice, 1999); tento pohíad mÖže byť o to zaujímavejší, že je
aplikovateíný už na web v súčastnej podobe, i keď sa v ňom vyskytujú prvky
leeovskej interkreativity. Sarnovský pripodobňuje web íudskému mozgu, hypertext
asociatívnej pamäti. Linky medzi dokumentami prirovnáva k asociáciám medzi
konceptami uloženými v mozgu. Túto analógiu rozvíja na procesy učenia a
myslenia.
V mozgu aj na webe považuje získanie informácie za proces "šírenia a
aktivácie". Vrcholy (koncepty alebo dokumenty), blízke híadanej informácii sú
aktivované a táto aktivácia sa šíri cez spojenia (synapsie alebo hyperlinky) na
susedné vrcholy. Od budúcnosti webu Sarnovský očakáva, že bude na ňom možné
íahšie nájsť aj odpovede na zle alebo neúplne položené otázky a požiadavky. Web
si v takom prípade predstavuje ako externú pamäť uchovávajúcu obrovské množstvo
informácií, čo používateíovi umožní sústrediť sa na vyššie formy činnosti
vedomia.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.