Metadata - klíč ke globálním informačním systémům

Cílem dnešního vývoje informačních systémů je dosáhnout jejich kooperativnosti a interoperability. V klasickém pří...


Cílem dnešního vývoje informačních systémů je dosáhnout jejich kooperativnosti
a interoperability. V klasickém přístupu, kdy počet a informační obsah IS je
znám, vede cesta k tomuto cíli prostřednictvím řešení problému heterogenity
odpovídajících databází. Mezi příklady této kategorie patří integrované IS
podniků, event. distribuované systémy a IS se vzdálenými zdroji dat (např.
databázemi dceřiných společností).
Integrace může být provedena přes pevné globální schéma nebo pomocí replikací,
kdy duplikovaná data jsou rozložena do uzlů, ve kterých jsou logicky připojena
k autonomním datům, s cílem vytvořit iluzi globálního pohledu. Ve volnější
architektuře podává hezký příklad projekt Hypermedata, kde se zdroje při
splnění určitých pravidel mohou připojit k existující síti informačních zdrojů
přes tzv. kanonické schéma.
Podstatně složitější situace nastává při řízení dat v prostředí Webu, kdy počet
zpracovávaných databází, jejich struktura či další důležité informace (jazyk
přístupu apod.) nejsou známy. Navíc v tomto případě neexistuje žádné
centralizované řízení dat. Přesto lze i zde hovořit o globálním informačním
systému (GIS pozor! tato zkratka se obvykle používá pro geografické informační
systémy). Z hlediska zpracování by GIS měly realizovat požadavky na globální
informační infrastrukturu (GII). Mezi příklady jejich funkcí mohou patřit např.
manipulace biologických dat produkovaných různými experimentálními centry,
přístup k databázím o kultuře vytvořeným zeměmi Evropské unie apod.
GIS přináší i naplnění jistých nových vlastností, které se někdy označují jako
USECA (z angl. Uniform access, Scalability, Evolution, Composability and
Autonomy). Nejde tedy pouze o sjednocující přístup k heterogenním datům a
lokální autonomii. Důležitá je škálovatelnost GIS (přidávání dalších zdrojů),
jejich vývoj a možnost kompozice uživatelsky orientovaných celků.
Zdroje dat existují na různých hardwarových i softwarových platformách, kromě
vlastních zdrojů, např. v rámci jednoho podniku, však existují i další vnější
či vzdálené zdroje, které svojí heterogenností jen znásobují nedostatečnou
formu vzájemné komunikace. Komunikaci navíc ztěžuje redundance dat, různé
formáty dat, rozdíly v komunikačních jazycích apod. Z hlediska databázové
technologie se tedy kooperativní zpracování odehrává v prostředí
distribuovaných dat, kde již v 80. letech byl řešen problém integrace
databázových schémat. Mezi nejznámější, dnes již klasické přístupy k integraci
heterogenních informačních zdrojů patří speciální případ řešení distribuce dat
federativní databáze.
Ukazuje se ale, že tyto techniky nejsou pro GIS postačující. Současné dostupné
informační zdroje mohou obsahovat jak strukturovaná data (relační databáze),
tak data polostrukturovaná (např. kolekce e-mailovýchĘzpráv, WWW stránky) či
nestrukturovaná (texty, obrázky,ĘrentgenovéĘsnímky, zvukové nahrávky a
podobně). Obecněji je heterogennost ovlivněna multimediálností dat obsažených v
informačních zdrojích. Typickými aplikacemi v této oblasti jsou digitální
knihovny a elektronické obchodování.
Z hlediska současného stavu je možné rozlišit tři generace přístupů ke GIS.
Atributy, které slouží pro rozdělení do generací, jsou distribuce, autonomie a
heterogennost. K první generaci patří federativní databáze, které řeší problémy
integrace strukturovaných dat vytvořených a organizovaných v různých
prostředích, pod různými databázovými schématy. Představují-li databázová
schémata v GIS první generace metadata, pak druhá generace GIS uvažuje metadata
mnohem obecnější obvykle jsou uložena ve zvláštních databázích (repozitářích).
Mezi metadata může patřit např. indexová struktura textové databáze, data
popisující danou problémovou oblast (doménu), ale také externí znalosti, např.
tezaurus k textové databázi, slovník používaných pojmů (tzv. ontologie) apod.
Ve třetí generaci se pomocí metadat již formulují informační kontexty
jednakĘkontexty samotných metadat,Ęjednak konceptuální kontexty, obojí pomocí
daných ontologií.
Federativní databáze
Federativní databáze jsou založeny na pojmu federace, který byl do informatiky
přejat z oblasti sociálních a politických věd. Rozdíly mezi federacemi závisí
na tom, jaké role jsou delegovány federální vládě (problém autonomie) a jak
mnoho se vnitřní struktury federálních států liší navzájem (problém
heterogenity). Tím, že je snaha zachovat autonomii komponent federativního
systému, musí se zvětšit, na rozdíl od jiných distribuovaných systémů, úsilí
vynaložené na řízení globální integrity a na řízení globálních transakcí.
U federativních databází rozeznáváme dva základní přístupy úzce a volně vázanou
federaci. V prvním případě strukturální vztahy jsou mezi heterogenními
databázemi řešeny přes předem dané integrované schéma. Ve volné vázané federaci
(též multidatabázi) se tyto vztahy definují před formulací dotazu. Nejvolnějším
typemĘarchitektury je federace založená na schématech importu a exportu
(obrázek 1). Rozeznávají se zde tři druhy
schémat:
privátní (jde o lokální konceptuální schéma),
export (popisuje data, ke kterým je možné přistupovat z jiných systémů),
import (popisuje data přijímaná od jiných systémů).
Dalším typem federativní architektury je multidatabáze (obr. 2). Konceptuální
úroveň obsahuje jednotlivá schémata od jednotlivých komponent realizovaná v
jednom globálním datovém modelu. Představují vlastně to, co komponenty nabízejí
(varianta schémat exportu). Další schémata konceptuální úrovně popisují
závislosti mezi komponentami, resp. globální integritní omezení. Za integraci
opět odpovídá uživatel (programátor).
Poslední typ federativní architektury připomíná klasický přístup k
distribuovaným databázím. Někdy se hovoří o architektuře pěti schémat. Schémata
komponent udávají transformaci lokálních schémat v globálním modelu, schémata
exportu nabízejí data do globálního systému, federované (globální) schéma je na
rozdíl od pouhé kompozice konceptuálních schémat multidatabáze integrované.
Tuto integraci však musí provést centrální autorita, např. globální správce
dat. Tyto architektury však nejsou vhodné např. pro prostředí WWW.
Metadata od schémat ke kontextům
Nahlédneme-li na klasické pojetí popisu databáze pomocí schématu, vidíme, že ta
je strukturálně popsána databázovým schématem a její sémantiku vyjadřuje
konceptuální schéma. Uplatňují se zde jednoduché konceptuální modely, jako je
E-R, nebo sofistikovanější prostředky, jakými jsou např. obecnější funkce
(atributy).
Přístup pomocí metadat se snaží o víc. Vychází se jednak z dat uložených v
repozitáři připojeném k jednomu nebo k několika informačním zdrojům, jednak z
externích metadat ontologií. Ontologie mohou být buď vytvořeny přímo
producentem informačního zdroje nebo jsou vytvořeny nezávisle na nějakém
informačním zdroji. Ve 2. generaci GIS se zatím využívají jenom jednoduché
ontologie. V souvislosti s tvorbou kontextů a využíváním vztahů mezi
ontologiemi se již hovoří o 3. generaci GIS.
Klasifikace metadat
Pro strukturované databáze jsou metadata představována klasickým schématem či
schématy. Již data obsažená v datových skladech musí být ale popsána
složitějším způsobem. Popisují se vztahy dat skladu k původním datovým zdrojům,
výpočty agregací, výrazy definující nová data ze starých dat apod. Metadata
mohou mít důležitý vztah k informačnímu obsahu dat.
Mohou být buď nezávislá na obsahu, anebo závislá na obsahu.Ęnapříklad vĘprvním
případě jde o umístění dat, datum jejich poslední modifikace a podobně.
MetadataĘspojená s obsahem (například dokumentu) jsou velikost dokumentu, počet
sloupců v tabulce ap. Dále se rozlišují metadata závislá na obsahu přímo a
metadata závislá na obsahu nepřímo. Pro kolekci dokumentů jde v prvním případě
např. o index nebo již zmiňovanou matici vektorů vah. Druhý případ pokrývá
taková metadata, jaká představují anotace dokumentů nebo obrázků. V jemnějším
dělení potom dostaneme metadata nezávislá na doméně (např. definice HTML/SGML
pro daný dokument) a metadata specifická pro danou doménu (tezaurus či
ontologie pro danou problémovou oblast, atributy schématu strukturované
databáze, kontexty atd.). Příklady by bylo možné rozšířit na oblast obrázků
(barva, velikost, kategorie), videa či zvukových dat.
Uvedená metadata umožňují do jisté míry zachytit informační obsah informačních
zdrojů. Pro systematický popis sémantiky objektů v informačním zdroji (popis
tvoří tzv. kontext) se používají obecnější prostředky než pro popis schématu
formátované databáze. To je zdůvodnitelné tím, že se popisuje mnoho různých
typů informace. Jistým kontextem je popsán i uživatelský dotaz. Dotazování v
GIS pak může mít charakter porovnání dvou kontextů.
Ontologie, mediátory
Ontologie se zabývá studiem podstaty existence nezávisle na formě znalostí o
ní. Ontologické souvislosti spojené s primitivy jazyka lze na této úrovni
specifikovat explicitně. Toho lze dosáhnout buď vhodným omezením sémantiky
primitiv nebo zavedením tvrzení o významu těchto primitiv vyjádřitelných v
tomtéž jazyce. Pro naše účely vhodnější definice chápe ontologii jako popis
pojmů a vztahů, které existují mezi agentem a komunitou agentů.
V jednoduchém případě si můžeme představit ontologii jako hierarchii pojmů
známou např. z tezaurů. Ontologie mohou být globální, tj. zahrnující mnoho
problémových oblastí (zahrnují až okolo 30 tis. objektů), nebo popisující
jednotlivé problémové oblasti (knihy, výzkumné zprávy, medicínské informace).
V projektech zabývajících se GIS se rozlišují metadata na straně informačních
zdrojů a metadata na straně uživatele. Ze softwarového pohledu souvisí
ontologie s mediátory, což jsou vlastně programy, které pomáhají integrovat
data nebo nějakým jiným způsobem přispívají k reprezentaci vyššího pohledu na
jejich aplikaci (provádějí např. transformaci dat). Ontologie podporují lepší
návrh obsahu IS, znovupoužití zdrojů a interoperabilitu (event.
distribuovaných) zdrojů. Ontologie či celé mediátory mohou být dodávány ze
strany producentů informačních zdrojů, nebo přímo profesionálními institucemi.
Uživatel si může k formulaci dotazu v GIS vybrat ontologii, která mu nejlépe
vyhovuje. Tato uživatelská ontologie představuje základ pro uživatelské
rozhraní ke GIS.
Architektura globálního informačního systému s sebou přináší řadu problémů,
které je ještě potřeba dořešit. Patří mezi ně zejména volba jazyka pro popis
ontologií, případně pro popis mediátorů, dotazování nad několika ontologiemi a
vazba ontologie na repozitář.
Závěrem
Zdá se, že technologie reprezentace znalostí bude hrát stále větší roli při
integraci heterogenních informačních zdrojů. Tyto zdroje přístupné v prostředí
WWW nabízejí ideální platformu pro integraci a pro pojetí globálních systémů.
Samotná heterogennost popisů, ale i druhů digitalizované informace je zatím
hlavní překážkou efektivního přístupu k datům GIS.
Současný výzkum stojící na rozsáhlých vývojových projektech se opírá o ideu
vnést do vyhledávání v GIS jistou inteligenci. Umožňuje to pojetí ontologií a
spojení ontologií s repozitáři jednotlivých informačních zdrojů a s
uživatelskými dotazy. Možnosti zapojit více ontologií do zpracování dotazu jsou
atraktivní, nicméně vyžadují dosti jemný formální aparát a hlubší znalosti
vztahů mezi pojmy.
Pro provozovatele informačních zdrojů bude zapojení do globálního informačního
systému znamenat potřebu vybavit daný zdroj, tj. komponentu GIS, odpovídající
ontologií spolu s příslušnou vazbou na repozitář příslušných databází. Jedině
tak dostává zdroj šanci uplatnit se v GIS. Zajímavým problémem je i ztráta
informace, ke které dochází při různých transformacích ontologií a metadat. S
nepřesností vyhledávání se nabízí možnost využít pojmů koeficient úplnosti a
koeficient přesnosti, které dobře znají uživatelé dokumentografických systémů.
Tyto pojmy se zřejmě uplatní i při vyhledávání v GIS.
Popis sémantiky a možnosti její manipulace při integraci heterogenních
informačních zdrojů hrají a budou hrát v pojetí GIS klíčovou roli. Teprve s
funkcemi GIS se bohatství informací uložených v bludišti informačních zdrojů
stane efektivně přístupným uživateli a možná dojde (alespoň částečně) k
naplnění pojmu informační společnost.
9 2215 / ramn
import/exportmultidatabáze5 schémat
podporovaný přístupvolně vázaná volně vázaná volně a úzce
federacefederacevázaná federace
zodpovědnost zauživatel a lokálníuživatelglobální integracisprávce datsprávce
dat

přístup k federaciz lokálního systémupomocí globálníhopomocí
globálníhorozhranísystému
podpora globálníhožádnáčástečnáúplná
SŘBD









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.