Tematické mapy utřídí vaše data

DEFINICE Tematické mapy představují způsob, jak popisovat znalostní struktury a jejich vztahy s informačními zdroji. T...


DEFINICE
Tematické mapy představují způsob, jak popisovat znalostní struktury a jejich
vztahy s informačními zdroji. Technologicky je jejich funkce založena na XML a
konceptuálně jsou příbuzné knižním rejstříkům.

Počítače nás natolik přetěžují informacemi, že je leckdy složitější najít to,
co skutečně hledáme, než dříve. Od začátku devadesátých let minulého století je
internet díky výkonným vyhledávačům, jakými jsou například Yahoo, AltaVista a
Google, nesrovnatelně cennějším zdrojem informací než dříve, ale růst objemu
dostupných informací postupně snižuje i užitečnost těchto nástrojů. Google v
současné době indexuje více než 8 miliard stránek a jako odpověď na dotazy
obvykle vrací desítky tisíc v zásadě nesetříděných odkazů.
Jedním ze slibných řešení tohoto problému je takzvané tematické mapování. Zatím
je sice ještě v plenkách, ale přesto představuje příslib pro budoucnost.

Jako rejstřík
Vezměme si tradiční knihu s populárně naučným obsahem. Péče, s jakou je
vytvořen její rejstřík, může představovat zásadní rozdíl v použitelnosti této
knihy oproti konkurenci buď je to referenční příručka, nebo téměř bezcenná
sbírka faktů. Dobrý rejstřík ukazuje, jakými tématy se kniha zaobírá, kde je
možné je nalézt, i to, jak jsou témata organizována; nabízí odkazy na
podkapitoly i křížové odkazy; k souvisejícím tématům nabízí ukazatele. Ale i ty
nejlepší rejstříky mají svá omezení. Každý pokrývá pouze jednu knihu a knihy
již ze své samotné podstaty omezují typ informací, na které dokáže rejstřík
odkazovat. Chceme-li někam zahrnout více než jen myšlenky v jedné knize třeba
plný sklad dokumentů organizace a její bázi znalostí potřebujeme pojmout více
než jen slova na papíře. Části potřebných znalostí můžeme nalézt v e-mailových
zprávách i v jejich hlavičkách, v kalendářích a v harmonogramech jednotlivců, v
tabulkách a ve strukturovaných i v nestrukturovaných dokumentech celé řady
formátů. Je možné je také nalézt v databázích a datových skladech různého typu;
v knihovnách obrázků, audia a videa i v datových a podnikových pravidlech
obsažených v aplikacích i v datových souborech. A vždy se musíme starat o
bezpečnost a soukromí kdo může k informacím přistupovat? Kde a jak tedy začít s
organizováním?
K tomuto úkolu by mělo být v budoucnu možné využít tematické mapy. Ty jsou
druhem datové struktury, jakýmsi rámcem nebo souborem kategorií. Již byly i
standardizovány ISO, a to v roce 2000 (ISO/IEC 13250) jako XML tematické mapy
neboli XTM (XML Topic Maps). XTM je přitom základní model používající XML
značky k vyjádření struktury informačních zdrojů, konceptů a vztahů mezi nimi.

Jak to funguje
Pro usnadnění pochopení funkce tematických map začněme tím, že si definujeme
předmět. Jde o entitu ze skutečného světa nebo myšlenku, kterou v naší mapě
označujeme jako téma. Předmětem může být téměř cokoliv, od abstraktního
konceptu ke konkrétnímu tématu v článku, přičemž výrazy předmět a téma se často
zaměňují. Model tematické mapy nám umožňuje přidat jakémukoliv danému tématu
tři elementy (zvané vlastnosti): název, asociace s ostatními tématy a výskyt
(zvaný také zdroj).
Názvy jsou především užitečné pro lidi, kteří s tématy pracují. Témata sama o
sobě ve skutečnosti nepotřebují název typický křížový odkaz (například "viz
strana 12") ukazuje na nepojmenované téma. Rovněž obvykle seskupujeme témata
podle jejich zaměření. Pokud bychom například mapovali instalaci nějakého IT
systému, pravděpodobně bychom měli témata pro konkrétní kusy zařízení, vlastní
a nakoupené aplikace, informace o datových skladech a podobně. Naše mapa by ale
také zahrnovala témata zaměřená na kategorie například na hardware, software a
datové struktury. Asociace jsou koncepčním srdcem tematických map, označující,
jak jedno téma souvisí s jiným. Například knihu A (téma) napsal (asociace)
autor B (další téma). Výskyty jsou pak skutečnými referencemi odkazy na
příslušné informační zdroje. Výskyty mohou obsahovat články, knihy, obrázky,
fragmenty zvuku nebo videa, aplikační kódy, rutiny, nebo dokonce i lidi.
Obvykle odkazujeme na výskyty jednotnými identifikátory zdrojů (URI),
standardem IETF (Internet Engineering Task Force) pro adresování a odkazování
na zdroje. Jedním z typů URI jsou i webové URL adresy. Uvedené vlastnosti témat
nejsou univerzální. Existují v rámci omezeného (rozsahu) kontextu, kde jsou
považovány za platné. V ideálním stavu odpovídá jednomu tématu jeden předmět a
naopak. V praxi může několik témat představovat jeden předmět, jako když jsou
sloučeny různé tematické mapy. A v jedné tematické mapě můžeme nalézt například
položky William F. Bonney a Billy the Kid jako samostatné názvy témat
odkazující na stejný předmět, tedy na historickou osobnost. Ale název tématu
Billy the Kid může také odkazovat na balet o životě psance, pro který napsal
hudbu Aaron Copland. Abychom se s těmito problémy vypořádali, můžeme
jednoznačně definovat identitu předmětu pomocí prostředků nazvaných indikátory
předmětu (něco na způsob indexování v knihovnických systémech).

Přísliby
Co by měly tematické mapy přinést, je jasné. Charles Goldfarb, jeden z tvůrců
GML (Generalized Markup Language), předchůdce XML a všech dnešních značkových
jazyků, nazval tematické mapy GPS informačního vesmíru. Myšlenka tematických
map však bohužel předběhla svou dobu. Nástroje pro vytváření tematických map
existují, vznikly rovněž i určité implementace v konkrétních oblastech, ale
jsou především orientovány na vyjádření a organizování obsahu a nezabývají se
adekvátně úkolem vytváření obsahu. Nejvíce práce při vytváření tematických map
spočívá v definování sady témat a vztahů, nalezení příslušných výskytů a
následném zkoumání dat ohledně vhodných křížových odkazů, aliasů a ostatních
pomocných nástrojů. Ačkoliv je možné určité části této práce automatizovat,
největší část stále vyžaduje lidskou práci. Ale za několik dalších let, s tím,
jak podle Moorova zákona porostou schopnosti počítačů, by mohly tematické mapy
vstoupit do běžné praxe. V dubnu loňského roku byla publikována specifikace
aplikačního programovacího rozhraní tematických map
(xml.coverpages.org/ni2004-04-09-a.html), takže vývoj v této oblasti pokračuje.
Pro tuto chvíli jsou tematické mapy něčím, o čem bychom měli vědět, i když
jejich využití není zatím na pořadu dne.


Jak se také vytvářely rejstříky
Před 35 lety, v šedesátých letech minulého století, tedy v době před masivním
nástupem počítačů, bylo občas mou prací jakožto redaktora univerzitních novin
sestavit a vytvořit rejstříky populárně naučných knih. V té době tato práce
představovala mnoho kroků:
n Měl jsem přečíst kompletní verzi před tiskem po korekturách, označit všechny
výrazy, které si zasloužily zahrnutí do rejstříku, a přepsat výraz a číslo
stránky na kartičku 10 x 15 centimetrů. Netextové položky, jako například
fotografie nebo mapy, musely být označovány jinak, stejně jako položky
označující poznámky pod čarami. n Potom jsem musel ručně setřídit stovky, někdy
tisíce kartiček v abecedním pořadí podle tématu. n Pak jsem musel vzít každé
téma (které mohlo mít od jedné do několika stovek kartiček) a určit, jak
podrobný by měl rejstřík být, případně zvolit několika úrovní dílčích témat.
Kartičky jsem označil a setřídil jak abecedně, tak i podle čísla strany v rámci
abecedního setřídění. V některých případech, v závislosti na délce rejstříku,
jsem mohl kombinovat příbuzná témata s jednou nebo se dvěma položkami do
jednoho, obecnějšího tématu. Organizování a definování témat bylo klíčovým
krokem při vytváření rejstříku užitečného pro čtenáře nebo vědce. Zobecněné
téma následované stovkou různých citací čísla stránek není při hledání
konkrétní informace příliš užitečné. n V dalším kroku jsem musel pročítat
vytvářející se rejstřík a určovat, kde by byly užitečné další křížové odkazy a
aliasy a vytvářet je. n Pak jsem musel prohlédnout celý rejstřík a podívat se,
zda některé další oblasti nepotřebují bližší objasnění, uvedení více
podrobností a podobně. n Mým předposledním úkolem bylo napsat rejstřík
(nezapomeňte, byla to doba před PC, a tedy před používáním textových editorů),
přenést informace z kartiček na archy papíru, pečlivě rozlišovat mezi tématy a
dílčími tématy; dbát zvláště na obrázky, poznámky pod čarami a další druhy
odkazů. Současně bylo třeba formátovat dokument do konečné podoby. To bylo
dalším kritickým krokem procesu, protože jsem musel pokračovat velice pečlivě a
rozvážně; v průběhu této práce jsem hned sám sebe kontroloval, abych se
vyvaroval chyb v přepisu čísla stránek. n Jakmile byl rukopis hotový, já (nebo
spíše někdo jiný) musel projít rejstříkem a namátkově zkontrolovat celou řadu
záznamů a porovnat je se stránkami; hledaly se tak chyby. Pokud byly nalezeny
více než dvě chyby, bylo potřeba překontrolovat každou jednotlivou položku.
n Pak jsem vzal hotový a překontrolovaný rukopis rejstříku, označil jsem styl a
odeslal k ručnímu vysázení. n A abych nezapomněl, poté, co se vrátil rejstřík
vysázený, museli jej zkontrolovat dva lidé, řádek po řádku a číslo stránky po
čísle stránky, aby se vyloučily případné chyby sazeče během přenosu.

Dvě práce, ne jedna
Když se na celý proces vytváření rejstříku podíváte, je zcela jasné, že
zahrnoval dvě zcela odlišné práce: mechanickou, jež zahrnovala řazení kartiček
podle abecedy a třídění položek v několika krocích, a tvůrčí, která vyžadovala
jak správný úsudek, tak i pochopení předmětu textu, abych mohl vybrat výrazy do
rejstříku a nakonec je organizovat, rozdělovat a kombinovat. Počítač je zcela
zřejmě vhodným nástrojem pro provádění mechanické práce a také pro zachování
informací bez nutnosti jejich přepisování, tedy vyvarování se chyb při přepisu
ve dvou fázích a snad i vyhnutí se podrobným korekturám. Nejvýznamnější textové
editory Microsoft Word a WordPerfect od Corelu mají zabudované výkonné funkce,
které umožní autorovi nebo redaktorovi označit části textu a zahrnout je do
strojově vytvářeného rejstříku s následnou revizí a doladěním rejstříku podle
potřeby. Rovněž nabízejí možnost podívat se kdykoliv na to, jak bude konečný
rejstřík vypadat, zcela setříděný, naformátovaný a digitálně zpracovaný ve
správném druhu písma. Tímto způsobem jsem vytvářel několik rejstříků a oproti
ručnímu procesu je to ohromné vylepšení. Ale co tvůrčí proces? Automatizace
podřadné práce je fajn, ale skutečně důležité a na čas náročné je označování,
určování, co a jak se má objevit v rejstříku. V této oblasti nedošlo k žádnému
významnějšímu pokroku.

Použití KWIC
Moje první setkání s pokusem o vytvoření rejstříku počítačem v uvedeném slova
smyslu sahá na konec šedesátých let minulého století, když jsem pracoval s
jedním akademickým vědcem na novém, vícesvazkovém referenčním projektu. V té
době to bylo tak ohromné množství práce, že nebylo možné ji dělat ručně
(zabralo by to několik let) a řešením v té době velice dobrým bylo používání
knihovnické techniky nazvané KWIC (KeyWord In Context, klíčové slovo v
kontextu). Odkazovaný materiál byl přenesen na děrné štítky a ty pak vloženy do
mainframového počítače, který vytvořil výtisk, kde jste mohli vidět pro každý
výskyt každého slova samostatnou řádku. Řádka také obsahovala text před a za
slovem, čímž byl k dispozici kontext této položky, a výtisk byl setříděn tak,
že odkazované slovo seřazené podle abecedy bylo vystředěno uprostřed stránky
(vše samozřejmě velkými písmeny). Počítač byl naprogramovaný tak, aby ignoroval
běžná slova, jako například the a was. Tento docela surový nástroj umožnil
celou řadu textových analýz a jeho následovníci se dnes stále ještě používají.
Ale pro normálnější účely vytváření rejstříku není efektivní a nedělá nic pro
organizaci témat, odlišování forem slova a hláskování. Rovněž neumí křížové
odkazy. Dnes naše počítače, ve většině aspektů podstatně výkonnější než ony
staré mainframy, rutinně umožňují vytvářet fulltextové rejstříky všeho, co máme
na našich multigigabajtových pevných discích. Ale nejsou zase tak skvělé pro
normálnější typ rejstříku, který je stále velmi užitečný. I dnes musíme ručně
označovat části v dokumentu, definovat a organizovat jeho obsah; pouze poté si
dokáže software poradit a setřídit vše podle abecedy a výsledek zpřístupnit
uživatelům.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.