Sémantické technologie: Teorie skrývající se za sémantikou

23. 7. 2013

Jakým způsobem vzniká význam a jak se zachycuje a formalizuje pro snazší mechanické zpracování pomocí jazyků RDF a OWL? To se dozvíte v následujících řádcích.

Pro hlubší porozumění problematice sémantických technologií je třeba věnovat se alespoň krátce studiu vzniku významu. Podle Wittgensteina význam slov vzniká jejich používáním v rámci tzv. jazykových her. To znamená, že není předem a pevně daný, ale vzniká používáním a mění se na základě kontextu. Dalo by se říci, že takovýto nevyslovený předpoklad je základem statistického zpracování přirozeného jazyka, tak jak jej používají například Google a Bing pro své automatické překladače.

Význam a logika
Matematická logika přistupuje k významu z opačného konce – dává nám nástroje pro definování významu jednotlivých symbolů (oproti tomu podle Wittgensteina není nutné ani možné slova přímo definovat). Definice vždy zužuje možný význam daného symbolu (slova) kladením podmínek, které daný symbol musí splňovat. Klasická matematická logika je extenzionální – tj. symboly ztotožňuje s množinami a platí, že dva symboly jsou stejné, právě když jejich množiny jsou stejné.

Například skládá-li se náš svět pouze z individuí {alice, bob, cecilie, dan, eva}, pak symbol „muž“ můžeme definovat jako množinu {bob, dan}. Pokud v naší teorii existuje i symbol „žena“, bez dalšího může být ztotožněn s jakoukoliv podmnožinou naší množiny individuí. Chceme-li ho definovat, řekneme například, že musí splňovat podmínku „nikdo není zároveň muž a žena.“

V takovém případě je možné interpretovat symbol žena jako některou z množin {alice}, {cecilie}, {eva}, {alice, cecilie}, {cecilie, eva}, {alice, eva}, {alice, cecilie, eva} nebo jako prázdnou množinu {}. Naší zamýšlené interpretace pojmu žena jako množiny {alice, cecilie, eva} bychom mohli dosáhnout dalším zpřesňováním definic symbolů „muž“ a „žena“ – zúžili bychom jejich významy na námi zamýšlené. Je nutné poznamenat, že často není možné dosáhnout definic, kterým by odpovídaly přesně a jen zamýšlené interpretace.

Extenzionální sémantika nezachycuje jeden důležitý jev přirozeného jazyka. Uvažujme známý příklad pojmů „Jitřenka“ a „Večernice“. V obou případech jde o planetu Venuši, takže z pohledu extenzionální logiky by v obou případech šlo o množinu {Venuše}, a tím pádem jsou tyto pojmy z jejího pohledu nerozlišitelné.

Intenzionální logika dokáže zohlednit fakt, že v jednom případě máme na mysli planetu, která je vidět ráno, a v druhém případě planetu, jež je vidět večer. Jde tedy o dvě rozdílné entity, které ovšem sdílejí stejnou extenzi. Intenzionální logika tak pomáhá zachytit více různých významů než logika extenzionální.

RDF a RDF/S
RDF (Resource Description Framework) je jednoduchý jazyk pro popis výroků a jejich zpřístupnění na webu. Každý RDF výrok má formu minivěty (trojice) tvaru (předmět, predikát, objekt), tj. například: (eva, rdf:type, žena) čili „eva je/má typ/je ve třídě žena“. Množina RDF trojic tvoří RDF graf, kde předměty a objekty jsou vrcholy a predikáty jsou hrany.

Existuje rozšíření RDF, tzv. RDF Named Graphs, které umožňuje snazší formulování výroků o trojicích a o RDF grafech, tj. například výrok typu „(petr, říká, (venuše, rdf:type, planeta)),“ které samotné RDF umožňuje jen pomocí nemotorné techniky nazvané reifikace.

RDF/S je jazyk založený na RDF, který standardizuje definování pojmů a jejich vztahů. Je to tedy jednoduchý ontologický jazyk, který má povahu intenzionální logiky.

Pomocí jistých technických triků umožňuje například, aby třída obsahovala sama sebe bez porušení axiomu fundovanosti, a umožňuje mluvit o pojmech jako o třídách i jako o instancích tříd. To znamená, že je například možné hovořit o člověku jako o množině instancí: (člověk, rdfs:subClassOf, savec), ale i o člověku jako o instanci: (člověk, rdf:type, rdfs:Class).

RDF a RDF/S jsou tedy na logice založené jazyky, které jsou uzpůsobené popisu světa a sdílení těchto popisů v rámci webu. Každá třída i instance má své URL, na kterém by správně měl být bližší popis daného pojmu v RDF. Tyto popisy tedy tvoří jeden obrovský graf, kterým je možné postupně procházet a nalézat upřesňující a doplňující informace.

OWL
OWL (Web Ontology Language) je expresivnější ontologický jazyk založený na deskripčních logikách. Deskripční logiky jsou přizpůsobené popisu pojmů ve světě a omezují vyjadřovací sílu klasické logiky. Proto dokážou poskytnout záruky, že automatické uvažování v nich bude mít určitou složitost, tj. například že vždy skončí nebo skončí „rychle“.

Praktické využití
RDF a OWL se snaží usnadnit obohacení dokumentů o význam přístupný snadnému automatickému zpracování. Z předchozího je vidět, že ve své plné podobě skrývají nejeden potenciální problém s praktickým nasazením.

I přesto jsou to už často využívané jazyky. V některých případech ale firmy volí odlehčené jazyky jako například schema.org zavedené v roce 2011 vyhledávači Bing, Google a Yahoo. Obecně je nutné vzít v úvahu, že RDF, OWL a technologie kolem nich jsou relativně mladé a nevyužily plně poznatky z předchozího výzkumu třeba v oblasti relačních databází, a tento nedostatek postupně dohánějí.

RDF a OWL ontologie a popisy jsou obecnější než specializované mikroformáty jako například hCard nebo schema.org. V současnosti je využívá například i Google k zobrazování podrobnějších informací o nalezených výsledcích, tzv. rich snippets. V tomto ohledu se mluví i o tzv. sémantickém SEO. Známá ontologie je například GoodRelations pro popis produktů.

Pro základní popis lidí a vztahů mezi lidmi se používá ontologie FOAF (Friend Af A Friend). Podle nejnovějších statistik zhruba čtvrtina webových stránek už obsahuje RDF anotace (v podobě formátu RDFa). OWL se hojně využívá v biologii a medicíně například pro popis genů, jejich interakcí, pro formalizaci popisu nemocí atd. CMS systém Drupal už automaticky poskytuje publikování RDF dat o v něm implementovaných webech.

V jednom z dalších dílů tohoto seriálu si přiblížíme LinkedData – celý živý a rostoucí ekosystém sémantických dat. Existují rozšíření Firefoxu a Chromu, která detekují RDF data zabudovaná ve stránkách a dokážou o nich zobrazit podrobnější informace. Za vyzkoušení stojí OpenLink Data Explorer a RDF Detective.

Evropská unie investuje už několik let do výzkumných projektů sémantického webu (více než USA). To spolu s faktem, že množství sémantických dat a jejich využití neustále roste, naznačuje, že sémantická data a technologie se pomalu stávají běžnou součástí webu, která se bude i nadále dynamicky rozvíjet.

Autor je spoluzakladatelem startupu TalentHacker.com

Našli jste v článku chybu?

Sdílet

Autor článku

Jakub Kotowski

Mohlo by vás zajímat

Anketa

Využíváte už některé z inovativních metod šifrování?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Sémantické technologie: Teorie skrývající se za sémantikou

Sdílet

Autor článku

Jakub Kotowski

Mohlo by vás zajímat

Europol zatnul tipec hackerům, chystali hromadný útok během Vánoc

Předpověď kybernetických hrozeb pro rok 2025: Připravte se na větší a odvážnější útoky

Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních center s Pavlem Hrabcem

Co je nejoblíbenější způsob použití umělé inteligence v práci?

Anketa

Využíváte už některé z inovativních metod šifrování?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Dále u nás najdete

Online nákupy pohodlně. Známe trendy v e-commerce pro rok 2025

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

OpenAI zavádí do ChatGPT „Santa Mode“. Co říká na Ježíška?

Simona Kijonková: Dívala jsem se na investice za 1,4 miliardy

Vánoce v minulosti: Oplzlé koledy, bujaré veselí a na večeři hrachová kaše.

Vyšetření krvácení do stolice jako prevence rakoviny nestačí

Neplaťte si IT kurzy sami, využijte dotace od EU

Google Agentspace zpřístupní AI agenty pro zaměstnance

Pár triků, díky kterým dokážete letos o Vánocích nepřibrat

Co nás čeká příští rok v automatizaci a umělé inteligenci?

Dění v Rumunsku testuje vztah Evropy k online platformám

Operátoři testují nástroj proti podvrženým mobilním číslům

Hranolky, pizza, tatarák: příběhy pokrmů jsou často vymyšlené

Zkuste vánoční cukroví bez cukru. 5 vyladěných receptů

GenAI nástroje pro tvorbu 3D světů přicházejí

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

Udělejte si french toast ze zbylé vánočky

COOP začal rozvážet potraviny, doručovat je bude Česká pošta

Zahraniční cestovní náhrady 2025: Téměř 40 změn

Technologické trendy, které se v roce 2025 nestanou