Sémantické technologie: Sémantický web

16. 8. 2012

V novém seriálu přiblížíme sémantické technologie, podíváme se, jak význam vzniká, jak se formalizuje a zpracovává, dojde i na grafové databáze a techniky extrakce informací používané pro dolování strukturovaných informací nebo pro analýzu emočního ladění textu.

V prvním díle představíme vizi sémantického webu a různé formy sémantických informací, které už na webu běžně používáme, aniž si to uvědomujeme.

Rychlý růst internetu a webu v průběhu devadesátých let uspokojil do značné míry poptávku po informacích, ale nesplnil všechna očekávání expertů. Jedním z nich byl a je sir Tim Berners-Lee, který v roce 2001 publikoval v časopise Scientific American článek „The Semantic Web“, ve kterém formuloval vizi inteligentnějšího webu založeného na sémantických technologiích.

Vize sémantického webu
Tim Berners-Lee popsal v roce 2001 vizi sémantického webu, ve které funguje počítač jako osobní asistent, který svého majitele důvěrně zná a dokáže mu například doporučit a naplánovat celou dovolenou (včetně rezervace hotelu) v souladu s jeho časovými možnostmi a preferencemi. Takovéto možnosti byly v oblasti umělé inteligence slibovány odnepaměti, ale nikdy nedošlo k jejich naplnění. Sémantický web nespoléhá na pokročilou umělou inteligenci, která dokáže význam slov a tvrzení zpracovat sama, ale doporučuje obohacovat klasický web o značky a výroky psané ve speciálních jazycích (například RDF a OWL).

Sémantické informace vpletené do běžného webu umožňují počítači manipulovat s daty inteligentněji. Například slovo „auto“ vyskytující se na běžném webu je pro počítač pouze řetězec čtyř znaků. Na sémantickém webu je možné označit slovo „auto“ identifikátorem (URL) pojmu auto v nějakém popisu pojmů a jejich vztahů, kterému se běžně říká ontologie.

Počítač pak v ontologii například zjistí, že auto je dopravní prostředek, že má řidiče a že řidič je člověk, který má řidičský průkaz. Vyskytuje-li se pak v textu třeba informace „Petr jel autem do práce“, je pro počítač snazší odvodit, že Petr je člověk, který má řidičský průkaz.

Nejdříve ale musí existovat ontologie, která takové vztahy popisuje, a text musí být anotovaný (doplněný o značky). Tvorba ontologií většinou probíhá ručně. Automatické odvozování ontologií je stále předmětem aktivního výzkumu. Podobně je tomu se značkováním – často probíhá ručně, ale existuje i spousta automatických a poloautomatických nástrojů.

Sémantické spektrum
Ontologie je většinou definována jako explicitní popis konceptualizace. To jest, zaznamenává pojmy a jejich vztahy v nějakém jazyce. Tyto jazyky mívají velkou vyjadřovací sílu a často vyžadují expertní znalosti. Existují ale i méně silné a daleko rozšířenější prostředky pro popis konceptualizace. Používá je někdy téměř každý uživatel dnešního webu – jsou to tagování, taxonomie a tezaury.

Tagování neboli přiřazování štítků (kde štítek je obyčejný řetězec znaků) má nejmenší vyjadřovací sílu – význam zprostředkovaný tagováním je jen malý. Tagování na webu pomáhá uživateli třídit informace především za účelem jejich pozdějšího vyhledání.

Taxonomie je hierarchie (strom) pojmů. Většinou popisuje pouze jeden druh vztahu (například vztah „je podtřídou”), ale může v ní implicitně existovat více druhů vztahů, jako je tomu například u adresářů v souborových systémech. Podadresář P může být v nadřazeném adresáři N, protože P (jezevčík) je druhem N (pes). Jiný podadresář Q může být v nadřazeném adresáři N, protože Q (hlava) je částí N (pes).

Tezaurus také popisuje hierarchii pojmů, ale jasně říká, které vztahy mezi pojmy popisuje. Většinou jsou to pojmy „je obecnější než,“ „je méně obecný než“, „je příbuzný“.

Ontologie je nejbohatším způsobem popisu konceptualizace. V ontologických jazycích, jako je např. OWL, je možné zavádět jak pojmy, tak i nové vztahy, které jsou následně používány pro další popis pojmů. Tagování, taxonomie, tezaurus a ontologie tvoří takzvané sémantické spektrum (někdy se místo tagování uvádí obyčejný a řízený slovník).

Semanticke spektrum

Sémantické spektrum v praxi
Dříve se k organizaci informací na webu i v společnostech používaly převážně předem definované taxonomie pojmů. Takováto a priori kategorizace je neflexibilní, protože nutí uživatele přizpůsobit se jednomu úhlu pohledu. Nejednou se uživateli stane, že by rád určitý soubor zařadil do dvou různých adresářů, aniž by ho musel kopírovat.

Tento problém řeší přiřazování štítků (jako například v Gmailu) – jednomu souboru mohu přiřadit mnoho štítků vlastního výběru (tj. z neřízeného slovníku). Díky tomu pak informace snáze najdu za pomoci fasetového vyhledávání. To už zjistili majitelé mnoha internetových obchodů: Zadáním štítku omezím výběr na produkty s tímto štítkem a mohu postupně přidávat další štítky, které produkt musí mít, a tak postupně zpřesňovat svůj výběr. Místo štítkování může obchod popsat produkty pomocí ontologie.

Ontologie popíše hierarchii (druhů) produktů, jejich vztahy a vlastnosti a obchod zařadí produkty do příslušných kategorií a vyplní jejich vlastnosti. To umožní zprostředkovat uživateli ještě inteligentnější vyhledávání v podobě zadávání intervalů, čísel ve správných jednotkách na základě informací, které jsou o jednotlivých kategoriích a atributech v ontologii.

Ačkoliv je sémantický web vyvíjen už více než deset let a dosažení jeho vize je stále v nedohlednu, mnoho z jeho myšlenek a technologií je v praxi už používáno. Jedním příkladem je již zmíněné fasetové vyhledávání. Mezi jiné patří například zobrazování tzv. rich snippets“ vyhledávači.

Rich snippets nejsou nic jiného než kousky informací doplněné o sémantické anotace, které vyhledávači sdělí, že daná informace je popis produktu, vizitky, události nebo struktury určitého webu. Ne vždy se ovšem firmy hledající praktické řešení shodnou s akademiky na způsobu anotace. Například vyhledávače se v roce 2011 spojily a zavedly schema.org – soubor schémat pojmů, který umožňuje jednoduchý popis obsahů stránek. Akademici záhy poskytli způsob jeho transformace na standardní, expresivnější, ale mírně složitější sémantický formát (www.schema.rdfs.org/).

Výhoda expresivnějších formalismů spočívá v možnosti tvořit bohatší popisy, které následně umožňují zajímavější automatické uvažování, jež je potřeba k dosažení vize, kterou popsal Tim Berners-Lee.

Autor je spoluzakladatel startupu TalentHacker.com

Našli jste v článku chybu?

Sdílet

Autor článku

Jakub Kotowski

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Arrow Electronics v EMEA spouští Cloud Amplification Program

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Sémantické technologie: Sémantický web

Sdílet

Autor článku

Jakub Kotowski

Témata:

Mohlo by vás zajímat

Windows Recall: Kontroverzní funkce sledující obrazovku má další zpoždění!

Co se dočtete v novém Computerworldu 11/2024?

Podcast: Kybernetická bezpečnost v Česku – dokážeme čelit novým hrozbám?

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Arrow Electronics v EMEA spouští Cloud Amplification Program

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Dále u nás najdete

USA zastavují dodávky pokročilých AI čipů TSMC do Číny

Dřívější neplodnost dnes řeší miniinvazivní operace

Windows chystá offline AI vyhledávání souborů

Bezplatný Microsoft PC Manager vylepšen

Domácí mazlíčci jí téměř ožívají pod rukama. Figurky vyrábí z vlny

Je možné vyhrát nad Temu? Prodejci her se to podařilo

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Prémiové AI funkce: Stojí za příplatek?

Českou husu musíte objednávat i rok dopředu. V obchodech teď koupíte jen ty zahraniční

Čeští středoškoláci očekávají vypuštění své družice

V aplikaci Záchranka je rozcestník péče pro nevyléčitelně nemocné

Správná péče o bércové vředy může zabránit zanícení

Od dynamitu k Viagře. Výbušný nitroglycerin uvolňuje cévy

Pokud potřebujete půjčit, nemusíte prodávat bitcoiny. Stačí je zastavit

Horké nápoje: Zkuste recepty na šest nejznámějších

Děti, které nemají praktika, mohou jít do nemocničních ordinací

Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Vánoční slevy operátorů? Daleko za očekáváním

SSD už také mají obrovskou kapacitu – až 122 TB

Lumbální punkce sice vypadá děsivě, ale nebolí