Pro hlubší porozumění problematice sémantických technologií je třeba věnovat se alespoň krátce studiu vzniku významu. Podle Wittgensteina význam slov vzniká jejich používáním v rámci tzv. jazykových her. To znamená, že není předem a pevně daný, ale vzniká používáním a mění se na základě kontextu. Dalo by se říci, že takovýto nevyslovený předpoklad je základem statistického zpracování přirozeného jazyka, tak jak jej používají například Google a Bing pro své automatické překladače.
Význam a logika
Matematická logika přistupuje k významu z opačného konce – dává nám nástroje pro definování významu jednotlivých symbolů (oproti tomu podle Wittgensteina není nutné ani možné slova přímo definovat). Definice vždy zužuje možný význam daného symbolu (slova) kladením podmínek, které daný symbol musí splňovat. Klasická matematická logika je extenzionální – tj. symboly ztotožňuje s množinami a platí, že dva symboly jsou stejné, právě když jejich množiny jsou stejné.
Například skládá-li se náš svět pouze z individuí {alice, bob, cecilie, dan, eva}, pak symbol „muž“ můžeme definovat jako množinu {bob, dan}. Pokud v naší teorii existuje i symbol „žena“, bez dalšího může být ztotožněn s jakoukoliv podmnožinou naší množiny individuí. Chceme-li ho definovat, řekneme například, že musí splňovat podmínku „nikdo není zároveň muž a žena.“
V takovém případě je možné interpretovat symbol žena jako některou z množin {alice}, {cecilie}, {eva}, {alice, cecilie}, {cecilie, eva}, {alice, eva}, {alice, cecilie, eva} nebo jako prázdnou množinu {}. Naší zamýšlené interpretace pojmu žena jako množiny {alice, cecilie, eva} bychom mohli dosáhnout dalším zpřesňováním definic symbolů „muž“ a „žena“ – zúžili bychom jejich významy na námi zamýšlené. Je nutné poznamenat, že často není možné dosáhnout definic, kterým by odpovídaly přesně a jen zamýšlené interpretace.
Extenzionální sémantika nezachycuje jeden důležitý jev přirozeného jazyka. Uvažujme známý příklad pojmů „Jitřenka“ a „Večernice“. V obou případech jde o planetu Venuši, takže z pohledu extenzionální logiky by v obou případech šlo o množinu {Venuše}, a tím pádem jsou tyto pojmy z jejího pohledu nerozlišitelné.
Intenzionální logika dokáže zohlednit fakt, že v jednom případě máme na mysli planetu, která je vidět ráno, a v druhém případě planetu, jež je vidět večer. Jde tedy o dvě rozdílné entity, které ovšem sdílejí stejnou extenzi. Intenzionální logika tak pomáhá zachytit více různých významů než logika extenzionální.
RDF a RDF/S
RDF (Resource Description Framework) je jednoduchý jazyk pro popis výroků a jejich zpřístupnění na webu. Každý RDF výrok má formu minivěty (trojice) tvaru (předmět, predikát, objekt), tj. například: (eva, rdf:type, žena) čili „eva je/má typ/je ve třídě žena“. Množina RDF trojic tvoří RDF graf, kde předměty a objekty jsou vrcholy a predikáty jsou hrany.
Existuje rozšíření RDF, tzv. RDF Named Graphs, které umožňuje snazší formulování výroků o trojicích a o RDF grafech, tj. například výrok typu „(petr, říká, (venuše, rdf:type, planeta)),“ které samotné RDF umožňuje jen pomocí nemotorné techniky nazvané reifikace.
RDF/S je jazyk založený na RDF, který standardizuje definování pojmů a jejich vztahů. Je to tedy jednoduchý ontologický jazyk, který má povahu intenzionální logiky.
Pomocí jistých technických triků umožňuje například, aby třída obsahovala sama sebe bez porušení axiomu fundovanosti, a umožňuje mluvit o pojmech jako o třídách i jako o instancích tříd. To znamená, že je například možné hovořit o člověku jako o množině instancí: (člověk, rdfs:subClassOf, savec), ale i o člověku jako o instanci: (člověk, rdf:type, rdfs:Class).
RDF a RDF/S jsou tedy na logice založené jazyky, které jsou uzpůsobené popisu světa a sdílení těchto popisů v rámci webu. Každá třída i instance má své URL, na kterém by správně měl být bližší popis daného pojmu v RDF. Tyto popisy tedy tvoří jeden obrovský graf, kterým je možné postupně procházet a nalézat upřesňující a doplňující informace.
OWL
OWL (Web Ontology Language) je expresivnější ontologický jazyk založený na deskripčních logikách. Deskripční logiky jsou přizpůsobené popisu pojmů ve světě a omezují vyjadřovací sílu klasické logiky. Proto dokážou poskytnout záruky, že automatické uvažování v nich bude mít určitou složitost, tj. například že vždy skončí nebo skončí „rychle“.
Praktické využití
RDF a OWL se snaží usnadnit obohacení dokumentů o význam přístupný snadnému automatickému zpracování. Z předchozího je vidět, že ve své plné podobě skrývají nejeden potenciální problém s praktickým nasazením.
I přesto jsou to už často využívané jazyky. V některých případech ale firmy volí odlehčené jazyky jako například schema.org zavedené v roce 2011 vyhledávači Bing, Google a Yahoo. Obecně je nutné vzít v úvahu, že RDF, OWL a technologie kolem nich jsou relativně mladé a nevyužily plně poznatky z předchozího výzkumu třeba v oblasti relačních databází, a tento nedostatek postupně dohánějí.
RDF a OWL ontologie a popisy jsou obecnější než specializované mikroformáty jako například hCard nebo schema.org. V současnosti je využívá například i Google k zobrazování podrobnějších informací o nalezených výsledcích, tzv. rich snippets. V tomto ohledu se mluví i o tzv. sémantickém SEO. Známá ontologie je například GoodRelations pro popis produktů.
Pro základní popis lidí a vztahů mezi lidmi se používá ontologie FOAF (Friend Af A Friend). Podle nejnovějších statistik zhruba čtvrtina webových stránek už obsahuje RDF anotace (v podobě formátu RDFa). OWL se hojně využívá v biologii a medicíně například pro popis genů, jejich interakcí, pro formalizaci popisu nemocí atd. CMS systém Drupal už automaticky poskytuje publikování RDF dat o v něm implementovaných webech.
V jednom z dalších dílů tohoto seriálu si přiblížíme LinkedData – celý živý a rostoucí ekosystém sémantických dat. Existují rozšíření Firefoxu a Chromu, která detekují RDF data zabudovaná ve stránkách a dokážou o nich zobrazit podrobnější informace. Za vyzkoušení stojí OpenLink Data Explorer a RDF Detective.
Evropská unie investuje už několik let do výzkumných projektů sémantického webu (více než USA). To spolu s faktem, že množství sémantických dat a jejich využití neustále roste, naznačuje, že sémantická data a technologie se pomalu stávají běžnou součástí webu, která se bude i nadále dynamicky rozvíjet.
Autor je spoluzakladatelem startupu TalentHacker.com