Vládci sémantického webu

Každý, kdo bojuje o to, jak sjednotit data z různorodých zdrojů ve své síti, už ten příběh slyšel. Výrobce či sk...


Každý, kdo bojuje o to, jak sjednotit data z různorodých zdrojů ve své síti, už
ten příběh slyšel. Výrobce či skupina výrobců vyrukují s novou myšlenkou, která
má získávání informací a přístup k datům, jejich integraci i sdílení učinit
jednodušším - mnohem jednodušším!

V průběhu let zřejmě už většina organizací zkoušela experimentovat s
nejrůznějšími přístupy, sahajícími od vzdáleného volání procedur přes
distribuované objektově orientované datové modely až po javové webové nástroje
a portály, tak, aby vzájemně provázaly informace z četných zdrojů a
prezentovaly je způsobem, který by uživatelé shledali jako užitečný. Některé
instituce zase spustily velkolepé projekty zaměřené na správu znalostí, aby
mohly vyhledávat a extrahovat podobné informace z různorodých datových zdrojů.
Ale běda, většina takových snah vyžaduje neskutečný objem programování a často
se neobejdou bez značných změn v IT infrastrukturách - a s nimi souvisejících
investic.

Nutnost inovací
Zastánci technologie označované jako sémantický web (Semantic Web) jsou ale
přesvědčeni, že mají něco, co by účel mohlo splnit. Na té nejjednodušší úrovni
totiž sémantický web převádí data do strojově čitelného formátu, díky čemuž
jsou počítače schopny data agregovat a rovněž odvozovat to, jaké jsou vztahy
mezi různými typy dat. Své aplikace nachází v mnoha vědeckých oblastech včetně
výzkumu a vývoje, klinických pokusů či translační nebo personalizované medicíny.
Zní to snad až příliš dobře na to, aby to byla pravda. Proč by měl kdokoliv
věřit dalšímu návrhu, jehož autoři tvrdí, že pomůže zjednodušit způsob, jak
získávat více informací z jeho nebo jejích dat?
Pro nezasvěcené je třeba poznamenat, že hlavní propagátor sémantického webu má
značně vysoký kredit, jenž může jeho tvrzení podpořit. Tim Berners-Lee totiž
před 15 lety, když pracoval v organizaci CERN, vynalezl principy služby World
Wide Web. Nyní Berners-Lee vede World Wide Web Consortium (W3C) v institutu
MIT, který se snaží pokročit kupředu při vývoji technologie sémantického webu.
Berners-Lee vidí sémantický web jako další fázi evoluce webu jako takového.
"Kdybych jej musel definovat, což je trošku ošemetné, pak musím říci, že jde o
integraci dat napříč hranicemi aplikací i organizací," řekl v jednom ze svých
četných projevů na toto téma. "Sémantický web znamená dívat se na data způsobem
podobným webu, způsobem zdola nahoru, nikoliv odshora dolů. Poměrně hodně
způsobů pohledu na sémantický web je odlišných od metod, na něž jsme byli
zvyklí dosud. Není to něco jako objektově orientované programování a není
snadné to vysvětlit. Věřte tomu nebo ne, ale nijak jednoduché nebylo před 15
lety vysvětlit ani to, co je World Wide Web ."

Síla webu
Jedním ze způsobů, jak ilustrovat potenciální sílu využití sémantického webu,
je porovnat jej se současným webem. V podobě, v jaké existuje dnes, web
prezentuje informace, které jsou snadno čitelné pro člověka. Předkládá
informace v přirozených jazycích (v angličtině, francouzštině, čínštině,
češtině atd.) a využívá grafiku, obrázky
či video. Avšak zatímco člověk je schopen takovou informaci zpracovat, počítače
nikoliv.
"Dnes jsou všechny značky a záložky navrženy tak, aby je mohl číst člověk,"
říká Eric Neumann, nezávislý konzultant a někdejší šéf výzkumné informatiky v
organizaci Sanofi-Aventis. V případě sémantického webu jsou však informace na
serverech a v datových úložištích čitelná také strojově. "To přináší několik
významných výhod," vysvětluje Neumann. "Zaprvé mohou být agregována podobná
data a informace. Zadruhé můžete zadávat strojově čitelné dotazy. Můžete tak
začít propojovat a agregovat data," popisuje Neumann.
Uvést takové schopnosti do provozu znamená rovněž využít některé podstatné
výhody. "Sémantický web vám dovolí vytěžit z informací na webu více než dosud,"
říká Dennis Quan, výzkumník z instituce IBM Thomas J. Watson Research Center.
Zatímco Berners-Lee preferuje analogii s mapou londýnského metra (viz vložený
box), Quan nabízí pro ilustraci vymožeností sémantického webu jiný příklad:
"Jestliže se chcete podívat na film v kině, možná před tím navštívíte několik
webových stránek a projdete si pár recenzí či dalších informací (o časech
promítání, lokalitě kin atd.). To je zcela v pořádku, pokud jdete do kina
jednou za čas. Není to však příliš praktické, pokud budete tento postup často a
mnohonásobně opakovat."
"Například ve vědecké praxi provádíme stále opakované činnosti pořád," říká
Quan. "Lidé stále navštěvují několik webů a kvůli tomu, aby mohli dělat svou
práci, si stahují informace." Tento proces je ovšem dosti pracný - vyžaduje
otevření nové relace v prohlížeči pro každý web. Data musejí být většinou
vyjmuta, přeformátována a vložena do jiné aplikace, teprve pak mohou být
skutečně využitelná.
Přístup založený na sémantickém webu tento proces výrazně zjednodušuje. "V
prostředí dnešního webu je to tak, že pokud potřebujete získat data z deseti
webů, potom jich musíte všech deset navštívit a pak, abyste na ně získali
integrovaný pohled, data shromáždit způsobem cut-and-paste," popisuje Matthew
Shanahan, marketingový ředitel ve společnosti Teranode, která vyrábí software
pro automatizaci experimentálního designu v oblasti biologických věd.
"Sémantický web však přenáší úlohu shromažďování dat z desktopu na síť. Ta
totiž v rámci služeb sémantického webu ví, jak data získat a shromáždit."
Za tímto účelem může být prohlížeč sémantického webu nakonfigurován tak, aby
navštívil více webů, našel zde požadované specifické informace, ty pak načetl a
zobrazil je v jednotném rozhraní browseru. Taková aplikace technologie
sémantického webu je v podstatě podobná portálům příští generace.

Biologie příkladem
Velmi dobrým příkladem, na němž lze vysvětlit, co může sémantický web v
nejbližší době přinést v praxi, je oblast medicíny či biologie, jež představuje
jednu z nejrychleji se rozvíjejících částí vědy.
"Příchod sémantického webu poskytuje komunitě z oblasti biologických věd
standardy a nástroje potřebné pro to, aby mohly budovat integrační informatiční
systémy," říká John Reynders, mluvčí pro oblast informatiky ve výzkumu a vývoji
v Eli Lilly. "Standardy sémantického webu nás hodně zajímají a vidíme v nich
nepostradatelné nástroje pro vyřešení problému s integrací heterogenních dat, s
nimž se setkávají naši vědci zabývající se výzkumem léků."
Ony standardy, o nichž se zmiňuje Reynders, jsou srdcem sémantického webu s
potenciálem pro zlepšení přístupnosti dat. Konsorcium W3C vyvinulo standardy
pro:
popis a identifikaci dat - Resource Description Framework (RDF)
ontologický jazyk - Web Ontology Language (OWL)
Semantic Web Rule Language (SWRL)
Sémantický web je využívá ve spojení s existujícími standardy pro formátování
dat a značkování, jako jsou XML a Life Science Identifier (LSID). Výsledkem je
lepší způsob, jak popisovat data a vztahy mezi jejich různými elementy.
Vůdčí společností mezi výrobci, kteří vyvíjejí úsilí směřující k podpoře RDF,
je Oracle. Ten doplnil podporu RDF do své databáze 10g už letos v létě. "RDF
pomáhá vědcům v oblasti výzkumu při agregaci veřejně dostupných dat s jejich
vlastními, interně generovanými daty," říká Susie Stephensová, vedoucí
produktová manažerka Oraclu pro oblast biologických věd. Jako příklad aplikace
této technologie uvádí firmu Siderean Software, jež RDF včlenila do svého
řešení Seamark Navigation Server a aplikaci představila výzkumným organizacím
na několika konferencích.
Klíčovým faktorem tohoto konkrétního nasazení sémantického webu je, že elementy
v příslušné množině dat - jméno bílkoviny, genu, léku nebo autora - jsou
unikátně identifikovány a existuje nějaká informace o vztahu daného elementu k
ostatním.
Právě připojení informace o vztazích mezi elementy je tím, co odlišuje data
sémantického webu od jednoduchého přidání metadat do databáze. V sémantickém
webu jsou elementy definovány ve specifikacích označovaných jako Semantic Web
Triplets, které obsahují podmět, přísudek a předmět.
Takový popis trojic může být využit mnoha způsoby. Může například identifikovat
element v biologickém smyslu, nebo s ohledem na jeho využití pro organizaci. Je
tedy možné konstruovat triplety podle linií "kináza" je "druh" "proteinu" nebo
"kináza" je "druh" "zacílení léku". Stejně tak lze propojovat datové elementy
do diagramu nebo do modelu.
Některé oblasti biologických věd, které byly dříve považovány za velmi oddělené
entity, vyžadující různé databázové technologie a analytické a vyhledávací
nástroje, se díky tomuto formátu trojic začínají z perspektivy zpracování dat
podobat. A jako takový nabízí sémantický web nástroj pro prohlížení, analýzu a
zpracování různorodých dat - což je pro nové oblasti výzkumu podstatné.

Weboví bojovníci
Neumann, Quan, Stephens a plno dalších, kdo myslí dopředu, se starají o další
vývoj sémantického webu právě pro oblast biologických věd. Pod záštitou skupiny
Semantic Web for Life Science v rámci W3C tato skupina vyvinula BioDash -
prototyp kontrolního panelu pro vývoj léků na bázi sémantického webu, který
propojuje vědomosti o nemoci, o stavu vývoje léku, o molekulární biologii a o
látkové výměně.
BioDash ilustruje sílu sémantického webu coby agregátoru, ale nejen to. S
využitím BioDash mohou vědci rychle měnit prezentované informace podle předmětu
zájmu. Jeden pohled poskytuje veškeré informace sesbírané o cíli (řekněme
určitý enzym). Pak stačí jediné klinknutí na link v ovládacím panelu, a pohled
se může změnit tak, aby bylo možné zjistit vztahy mezi různými chemickými
entitami a cílem.
Neumann poznamenává, že jednou z nejsilnějších vlastností sémantického webu je
možnost psát a aplikovat komplexní pravidla při velmi malém objemu
programátorského úsilí. Například v rámci BioDash může Neumann přetáhnout a
pustit jeden pohled - síť látkové výměny - do pohledu vztahů.
Díky takovým přitažlivým funkcím roste i všeobecné uznání toho, že sémantický
web nabízí mnohem větší hodnotu než jen prostou technologii pro agregaci dat.
Ve stále větší míře se tak vědci na sémantický web dívají jako na základní
technologii, která jim může pomoci při rozhodovacích procesech.
Tonya Hongsermeierová, manažerka pro správu klinických znalostí a podporu
rozhodování v organizaci Harvard Partners, nedávno představila pro oblast
translační medicíny přístup ke správě znalostí založený právě na sémantickém
webu. Systém využívá RDF, OWL a SWRL pro vyšetřování zdravotní a rodinné
historie pacientů, kombinuje je s lékařskými a klinickými protokoly a poté
vytváří pravidla pro volbu léčby pacientů.

Jak dál?
Sémantický web je teprve v rané fázi svého nasazení. Stejně jako v případě
původního WWW bude využitelnost jeho sémantického protějšku růst s tím, jak
bude více a více webů podporovat RDF a další související standardy.
Berners-Lee věří, že jeho úspěch závisí na všeobecném úsilí, kdy i individuální
vědci a oddělení začnou alespoň v malém - třeba převedením sesbíraných dat do
RDF formátu. Návratnost vynaložené snahy nicméně možná nebude ihned zřejmá.
"Jestliže sledujete pouze návratnost investic," varuje Berners-Lee, "je obtížné
říci, co vám sémantický web přinese během následujících 18 měsíců. Máme na to
sice odpověď, ale tím, co lidi povzbudí, je hlavně to, když si uvědomí: Kdybych
to udělal v příštích 18 měsících já a stejně tak i někteří z dalších kolegů,
mohlo by se začít něco dít, protože moje data by se začala propojovat s daty
ostatních."
I tak mají ale mnozí z počátečních příjemců z této technologie poněkud smíšené
pocity. Například Anastasia Christiansonová, ředitelka informatiky ve firmě
AstraZeneca, navzdory všemu nadšení okolo sémantického webu říká: "Zkoumáme jej
v malém rozsahu - je to obtížné, není snadné technologii implementovat, ale
vypadá to, že by mohla být přínosná."
Avšak Rainer Fuchs, viceprezident společnosti Biogen Idec, nadhazuje ožehavý
problém standardů. "Na sémantickém webu je nepochybně leccos atraktivního a
zajímavého, ale současně neřeší zcela základní problém. Stále se musíme
shodnout na standardech. Průmysl stojící za informačními technologiemi už 15
let trpí neschopností shodnout se na jakýchkoliv standardech. Pokud se tak ale
nestane, na konkrétní technologii vůbec nezáleží." "Co zatím nemáme, je způsob,
jak systematicky popisovat to, co vědci skutečně vyžadují," dodává Fuchs. "Je
zde spousta výrobců, kteří budují úložiště metadat, ontologií atd., ale není
tady nikdo, kdo by se pokusil systematicky zachytit, co zajímá uživatele, a to
způsobem, který může být počítačově zpracován."
V tomto stadiu je diskutabilní, kdo může získat více: potřebují vědci
sémantický web, aby vyřešil jejich problémy se správou dat, nebo naopak
dlouhodobý vývoj této technologie závisí na zájmu ze strany výzkumníků?
Berners-Lee tvrdí: "Upřímně řečeno, pokud ze stovek přítomných na mé přednášce
alespoň 20 lidí pochopí, oč jde, odejdou do svých domovských organizací jako
zastánci této myšlenky a vysvětlí zde, co to znamená (nebo si alespoň přečtou
dokumentaci a tutoriály), potom se dá mluvit o tom, že bude růst pokračovat
exponenciálním tempem, jako je tomu nyní."


Směrem do podzemí

Nejoblíbenější metafora, kterou Berners-Lee používá pro vysvětlení principů
sémantického webu, je adaptací známé mapy londýnského metra. "Vyzkoušel jsem
pro tyto účely nejrůznější obrázky, křížovky a podobně a nakonec jsem skončil u
mapy londýnského metra. Bavíme se zde o koncepční úrovni. Stanice představují
aplikace (například můj fotoaparát) a linky pak koncepty. Podobně mají
informace o tom, co se stalo, či o bilanci mého bankovního účtu společnou
souvislost - využívají časové měřítko."
"Doma používáte počítač, do kterého lze stahovat fotografie či s jeho pomocí
spravovat bankovní účet. Vezměte bankovní výpis a přetáhněte jej do kalendáře,
abyste viděli, co jste v dané době dělali. Ale nesedí to. Stále totiž nemůžete
přijít na to, za co jste v sobotu utratili 315 korun. Přetáhněte své snímky do
PC a všechny fotografie by se měly současně objevit i v kalendáři." Pak už to
může být jasnější...

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.