Binární reprezentace informací bez jejich interpretace nemá pro člověka žádnou hodnotu. Metadata jsou proto nutnou podmínkou (nikoliv však dostačující) pro získání informací nebo dokonce znalostí a slouží k vysvětlení významu čísel nebo třeba popisují stav či procesy. Využívání metadat ve společnostech přispívá obecně k vyšší efektivitě jejích procesů, ať už se jedná o proces, kdy předáváme práci kolegovi, nebo o postup přípravy testovacího prostředí či o optimalizaci zákaznického centra.
Ve všech případech existuje potřeba pro správné rozhodnutí interpretovat existující nebo právě publikovaná data. Podíváme-li se do praxe, pak zaměstnanci call centra obtížně zjišťují typ telefonu zákazníka či druh komponent tvořících produkční prostředí - metadata tak vlastně popisují pracovní proces při předávání agendy.
Velmi známým příkladem metadat může být atribut tabulky (jedná se o tabulku, která spravuje databázový server) – třeba atribut [datum fakturace] vysvětluje v tabulce [faktury] význam konkrétní hodnoty [17.3.2009]; viz příklad tabulky.
Je nutné rozlišovat několik typů metadat. V první řadě je členíme na strukturovaná a nestrukturovaná, což má význam už jenom proto, že podle odhadů je velká většina metadat nestrukturovaných. Mezi strukturované patří např. datové modely ERD nebo formuláře účetní aplikace či zdrojový kód. Jako příklad těch nestrukturovaných mohou posloužit například zákony, smlouvy.
Dále jde o rozlišení na technická a obchodní metadata – to zase vypovídá o obecenstvu, které je udržuje a užívá. Nikoho nepřekvapí, že strukturovaná metadata se velmi často protínají s těmi technickými.
Metadata mají několik zvláštností – vyskytují se všude, a to jak na formulářích aplikací, tak v e-mailech, a pochopitelně i v samotných hlavách jedinců. Velmi často má jeden termín více významů – např. termín [účet] má jiný význam pro prodejní oddělení a pro oddělení finanční. Často není možné určit zodpovědného vlastníka metadat, protože ta patří celé firmě – namísto vlastníka se proto určuje tzv. steward.
Struktura metadat
Jako všechny informace i metadata je možné organizovat. Organizace přispívá k pořádku a zejména k jejich vyššímu využití. Pokud se uživatel dotazuje například na databázi umělců a zajímají ho osoby žijící na vybraném území, bude pro něj užitečné, když bude geografická organizace metadat odpovídat jeho dotazu. Jestliže tak bude hledat v jednom okresu a geografická hierarchie nebude pokrývat úroveň okresů, nemůže být jeho dotaz efektivně zodpovězen.
Struktuře metadat se věnuje celá řada standardů, počínaje ERD a UML až po RDF-OWL. Cenným pomocníkem jsou tzv. case nástroje. K hlavním funkcionalitám těchto prostředků patří design metadat a jejich export.
Pod strukturováním metadat je třeba vidět především vytváření hierarchických vazeb mezi objekty (objekt se v UML se nazývá [Element], v RDF se objekt nazývá [Resource]). Např. geografické objekty lze uspořádat jako Země -> Okres -> Město. Dále jsou důležité specifikace formátu dat (v jakém formátu je číslo, datum…) či jazyka, v němž je popis uveden, a také definice omezení (constraints) – například to, že datum narození nemůže být novější než to aktuální.
Přínosy správy metadat
Správa v tomto případě v sobě zahrnuje sběr metadat, jejich uspořádání a distribuci. Pro příklad jsou k dispozici pouze metadata databáze a uživatelské aplikace, která zpřístupňuje data z databáze pro koncové uživatele. Ta prvně jmenovaná popisují databázové objekty a transformace. Aplikační zase definují objekty a transformace na aplikační vrstvě, tedy například to, co se v aplikaci děje, než se čísla dostanou na formulář. Že to někomu připadá jako fikce? Ještě to sice není ideální stav – bylo by žádoucí metadata z obou vrstev propojit – přesto ani takový stav není dnes běžnými prostředky dosažitelný.
Sběr metadat totiž v podstatě znamená určitou duplikaci skutečnosti – její míra záleží na účelu, jakému mají sloužit. Jiný detail potřebuje rozhodnutí, které aplikace čtou informace z jaké databáze, a jiný stupeň abstrakce vyžaduje uživatel reportu, jemuž „nesedí“ data. Míra detailu ovlivňuje také náklady vlastnictví metadat.
Hlavní přínosy správy metadat spočívají v:
1. porozumění datům. Bez nich nemají data hodnotu. Správná interpretace informací je nutnou podmínkou pro identifikaci těch nečistých a pro jejich opravu. Příkladem může být vysvětlení termínu „tržba“ na prodejním reportu. Představuje hodnota částku vč. DPH, zahrnuje slevy či prodeje v ekonomické skupině?
2. podílu na efektivitě procesů. Metadata poskytují různou míru abstrakce – umožňují měnit úroveň detailu, tak aby odpovídala potřebám - na rozdíl od zdrojového kódu, který obsahuje pouze tu nejnižší míru detailu. Mezi zajímavé procesy založené na metadatech patří impact analýza (závislosti mezi objekty metadat jsou klíčové pro hledání dopadů změn; v IT se typicky řeší, co se rozbije, pokud změníme určitou proceduru, v obchodních odděleních se často zkoumá, odkud se berou data) a efektivita využití aktiv (analýza závislostí hardwaru a softwaru pomůže s větší jistotou připravit testovací prostředí, implementovat virtualizaci atp.).
3. podpoře integrace. Výměna dat z různých systémů bývá založena na tzv. rozhraní, což jsou metadata, která popisují, jakým způsobem systém komunikuje s okolím.
4. sdílení znalostí. Některé nástroje umožňují uživatelům bezprostřední reakci na informaci. Tu je možné změnit např. formou diskuse či revize, nebo si vyžádat od moderátora či stewarda určité vyjádření. Příkladem může být správa zmiňovaného termínu „tržba“ ve firemním wiki slovníku.
5. realizaci centrálního vyhledávání. Je naprosto nutné podporovat různé strategie pro přístup k metadatům. Správné kanály jejich distribuce vedou jistě ke snížení nákladů na doručování a tisk. Určité skupiny uživatelů ocení notifikace změn například pomocí RSS. Fulltextové vyhledávání by mělo podporovat práci se synonymy a se strukturami metadat – v již zmíněném geografickém příkladu bych měl mít možnost vyhledat všechny pobočky ve státě, přestože na detailní úrovni sleduji pobočky na úrovni měst. Vyhledávání stavu informace k určitému datu je dalším často opakovaným požadavkem spolu s porovnáváním změn.
6. řízené centrální péči o metadata. Centrální zálohování ochrání informace, které mohou být snadno ztraceny na lokálních discích uživatelů. Jiná forma pečování o metadata je řízení přístupů k nim. S tím, jak jejich objem roste, nabývá na významu i omezování přístupu k nim.
Jako každý projekt musejí i metadatové projekty přinášet společnosti užitek. Finanční vyjádření obchodních dopadů se často opírá o zvýšení účinnosti takových procesů, které jsou ve podniku dobře zmapované (práce zákaznického centra, help desk...).
Technické prostředky správy
Základní prostředky pro sběr strukturovaných metadat tvoří různé case nástroje, které podporují doménovou oblast a často ji i normalizují. Základní funkcí těchto nástrojů je tvorba a správa modelů (modely na zelené louce, reverzování, import, verzování a porovnávání rozdílů), vyhledávání závislostí (impact analýza), generování kódu nebo jeho kostry, export modelu, plánování práce a její záznam či validace modelů, analýzy kódu a práce s pravidly.
Oblast nestrukturovaných metadat pokrývají různé tzv. collaboration nástroje, které kladou důraz hlavně na bezpečnou a snadnou komunikaci, jako je zabezpečený přístup, podpora různých přístupových kanálů (desktop a mobile verze), multimediální obsah a integrace nástrojů do operativních aplikací, fulltextové vyhledávání, plné verze dokumentů nebo jejich vlákna, centrální zálohování nebo strukturování (často formou obsahů a rejstříků nebo tagů; u těch je zajímavé zmínit tzv. folksonomy, kdy strukturu určují ostatní uživatelé, nikoli sám autor dat/textu...)
Na těchto dvou základních skupinách je patrný velmi podstatný rozdíl v normalizaci obsahu. Dosažení normalizované struktury je pro technická metadata podstatné pro jejich využití v dalších fázích technických projektů, jako jsou tvorba zdrojového kódu, odstranění chyb či návrh dle bloků a návrhových vzorů (patterns).
S nestrukturovanými metadaty mohou dnes pracovat hlavně lidé, což je nevýhodou v technických projektech, kde je žádoucí vysoké zapojení softwaru. Procesu strukturalizace původně nestrukturovaných metadat se věnuje čím dál tím více pozornosti. Hlavní motivací této pozornosti je získání dalších informací a znalostí vedoucích velmi často k získání konkurenční výhody.
Zvláštní skupina prostředků se zabývá sdílením a integrací metadat. Významné instituce se snaží definovat formáty výměny anebo principy integrace. Například OMG (Object Management Group) má formát XMI, který slouží zejména pro export a import UML modelů z case nástrojů.
W3C oblast metadat zase přispívá celou sadou konceptů pro sémantický web – jedná se o standardy pro strukturalizaci a pro integrace. Mnoho nástrojů business intelligence se věnuje sdílení a publikaci metadat – bohužel jde velmi často o řešení vytvořené pro dané BI prostředí, které nemá zanedbatelné celkové náklady na vlastnictví (TCO).
Autor pracuje jako konzultant ve firmě Adastra.