Ottův slovník naučný v novém digitálním kabátě

Elektronická forma tištěného textu je po vynálezu knihtisku dalším významným mezníkem umožňujícím masové šíř...


Elektronická forma tištěného textu je po vynálezu knihtisku dalším významným
mezníkem umožňujícím masové šíření psaného slova. Navíc dává elektronická forma
na rozdíl od klasického tisku autorům do ruky nástroje, s jejichž pomocí lze
dílu dodat nový rozměr. Autoři novodobých slovníků a encyklopedií s tím už
počítají, nebo by alespoň měli. Jinak je to ovšem s díly, která se narodila o
nějaké to desetiletí či dokonce století dříve.
Ottův slovník naučný, jehož první díly začaly vznikat v 80. letech minulého
století, je unikátem nejen v našem, ale i v evropském kontextu. Nyní je díky
zlínské firmě Aion CS na pultech již kompletní elektronická verze tohoto
velkolepého díla. Ředitele firmy Aion CS Pavla Gardavského jsme se proto
zeptali na přínosy digitální podoby, ale také na úskalí, která digitalizaci
provázela.
Pane Gardavský, proč jste se do toho vlastně před čtyřmi lety pustili?
Na dveře informačních technologií tehdy klepal nový fenomén Internet a my jsme
jako začínající firma hledali své místo na slunci. Existovaly náznaky, že
Internet a jeho doba budou zejména o obsahu, o informacích a o nápaditosti v
jejich zprostředkování lidem.
Pod tímto zorným úhlem jsme se rozhodli vyzkoušet, co obnáší digitalizace
historických textů, zda lze jejich bohatství přiblížit novými metodami dnešní
době a zda to má vůbec smysl. Jako
pokusné dílo nás napadl právě
Ottův slovník naučný. Musím se přiznat, že už předtím jsem ho dlouhou dobu
obdivoval, ale nikdy se mi jej nepoštěstilo vlastnit.
Jak probíhala digitalizace po technologické stránce?
V podstatě šlo o metodu pokusů a omylů. Z antikvariátu jsme si obstarali Ottův
slovník naučný, který jsme rozřezali na jednotlivé listy, protože nebylo možné
aplikovat skenování přímo z knihy. Pak jsme nasadili standardní metody OCR
podstatnou část práce jsme udělali pomocí špičkového rakouského softwaru
ProLector. To, co tento software nedokázal, jsme museli ošetřit, tedy
doprogramovat sami.
Rozhodně se to neobešlo bez problémů. Ottova encyklopedie má sice zdánlivě
jednotný vzhled, kterému jsme přizpůsobili proces OCR pak jsme se ale dostali
někam k 18. dílu a začali jsme se setkávat s velkým množstvím chyb. Zjistilo
se, že tento díl vyšel v době, kdy se pan nakladatel Otto dostal do značných
ekonomických potíží. Exekutoři mu tehdy zabavili všechny tiskové stroje a
výroba se přenesla jinam. Tím pádem se změnila sazba ne tak, aby to bylo patrné
na první pohled, ale dostatečně na to, aby to znemožnilo OCRku práci. Nezbylo
tedy, než začít s úpravami softwaru znovu prakticky od začátku.
Takto získaný výsledný text byl nicméně plný chyb, protože předloha už nebyla
po více než stu letech v nejlepší kondici a software si s ní přes všechnu snahu
nedokázal poradit. Bylo tedy potřeba nasadit kvalitní korektor pravopisu, což v
té době nebyla zdaleka samozřejmá záležitost. Kontaktovali jsme proto brněnskou
firmu Logos, která v této oblasti pracuje dělá např. korektory pro Microsoft
Office a ta nám vytvořila systém na míru.
Od samého začátku jsme si předsevzali udělat přesnou repliku slovníku, tedy
takovou, aby stránka od stránky a řádek od řádku byly totožné s původním dílem.
Díky tomu vyvstal problém s dělítky na koncích řádků, které byly zakončeny
tvrdým Enterem to byla první věc, kterou náš specifický korektor řešil. Druhou
věcí na míru byl slovník staročeských slov, který jsme postupně do korektoru
implantovali. Korektor měl obvyklý uživatelský slovník výjimek, jeho
specialitou však byl negativní slovník výjimek tedy slov, na která se korektor
naopak vždy ptal. Např. slova Cech a Čech a stovky jiných bylo třeba vždy
manuálně rozlišit.
Tímto způsobem vznikl čistý text. Co se s ním dělo dál?
Zkorigovaný text jsme museli popsat speciálně vytvořeným značkovacím jazykem,
abychom jej rozdělili na jednotlivá hesla, což bylo v případě Ottových slovníků
docela složité. Kromě toho bylo text nutné popsat sazebními informacemi tak,
aby se z něj dala pokud možno automaticky vysadit digitální replika.
Přišla tedy fáze, kdy jsme potřebovali zvolit vhodný prostředek pro vlastní
sazbu. Jedinou prověřenou možností byl sazební systém Tex, který byl původně
určen pro potřeby matematické sazby. V něm se všechno nadefinovalo pomocí maker
v jakémsi elementárním jazyce. Tato makra se pak prováděla nad vstupem, kterým
byl označkovaný text.
Sazbu bychom tedy měli. Jak však jednotlivé stránky zpřístupnit uživateli?
Už při volbě Texu se nám zdálo výhodné použít pro prezentaci celého díla dnes
velmi populární prohlížeč dokumentů Acrobat Reader od firmy Adobe. Ten však v
té době rozhodně ještě nepatřil ke známým produktům. Hledali jsme
prostřednictvím Internetu nějaké vzory a zjistili jsme, že zatímco texisté se s
nástinem něčeho podobného už setkali, lidé od Acrobatu nikoli.
Riziko tedy zůstalo všechno na nás pro tak rozsáhlý text a automatickou sazbu
našeho typu nebyl zpočátku výsledek rozhodně jistý. Mnohokrát jsme narazili na
paměťové i kapacitní limity použitého softwaru. V klíčových okamžicích, např.
při tvorbě křížových odkazů, bylo totiž nutné mít celou encyklopedii najednou v
paměti. Nakonec ale všechno dobře dopadlo.
Skutečně poslední věcí, jejíž koncepce se poměrně dlouho rodila, byl vlastní
způsob zpřístupnění jednotlivých stránek a hesel uživatelům. Ottův slovník
naučný obsahoval 29 000 stran, 5 000 obrázků a 180 000 hesel. Nakonec jsme se
rozhodli pro heslářový způsob navigace, který je velmi podobný práci s knihou.
V tuto chvíli si nemohu odpustit poznámku, že digitální technologie nabízejí
pro práci se slovníkem určitě víc...
Máte pravdu. Premiéru měla digitální Ottova encyklopedie na knižním veletrhu v
roce 1997 a tou dobou to byla skutečná perlička. Uvedení na trh provázel až
nepředpokládaný boom v prvních týdnech se encyklopedie prodávala po stovkách, a
nám bylo jasné, že heslářový systém dlouho neobstojí. Jeho zásluhou byla Ottova
encyklopedie pěkná, skutečně užitečná však mohla být pouze s vyhledáváním v
plných textech.
Znovu začala doba pátrání a výzkumů. Potřebovali jsme velmi kvalitní systém za
zákaznicky přijatelnou cenu a právě takový nám nabídla firma Tovek, která v
České republice zastupuje fulltextový systém Topic od firmy Verity. Ten je po
světě aplikován v mohutných vyhledávacích aparátech nejrůznějších informačních
agentur.
V našem případě byl použit produkt firmy Tovek s názvem Tovek Tools, který
implementuje technologii Topic do prostředí osobních počítačů a činí ji
jednoduše použitelnou. První CD-ROM tedy obsahuje digitální repliku "velikého"
Ottova slovníku naučného z let 1888-1908 ve vší kráse, druhý pak umožňuje
vyhledávání v plných textech. Díky Topicu tak lze nacházet bleskurychle
informace v dříve netušených souvislostech.
Posléze jsme začali pracovat na dokončení celého projektu digitalizaci 12 knih
Ottova slovníku naučného nové doby, jehož vydávání si za 1. republiky, přesněji
v roce 1930 vynutily desetitisíce majitelů "velikého" Ottova slovníku. Toto
dílo mělo mít původně 6 svazků, postupně se rozrostlo na celkem 14 svazků.
Válka však ukončila jejich vydávání u 12. svazku a vzhledem k překotné
poválečné době již nevznikla možnost dílo dokončit.
Přinesla digitalizace dodatků z hlediska technologie něco nového?
Digitalizace těchto 12 knih začala probíhat už racionálněji, s menším počtem
lidí a s kontrolními mechanismy v kritických bodech už jsme prostě věděli, co
můžeme čekat. Ottův slovník naučný nové doby byl publikován na jednom CD-ROMu
na podzim roku 98. Tam se vešla digitální replika, fulltextové vyhledávání i
kompletní přílohový aparát.
Když už jsme se dostali ke šťastnému konci celého projektu, nemůžu nevzpomenout
na životní školu, kterou jsem při tom prodělal. Na korekturách se totiž
intenzivně podíleli těžce zdravotně postižení lidé a odvedli ohromnou práci.
Při setkání s nimi jsem si neustále uvědomoval, o čem ten život opravdu je a
jak často akcentujeme jeho nepodstatné momenty zpravidla okamžité neúspěchy.
Máte v úmyslu zkušeností, které jste získali při práci na encyklopedii, nějak
využít?
Práce na Ottově encyklopedii nás velmi bavila, na problémy plodící probdělé či
alespoň bezesné noci jsme již zapomněli. Logickým pokračováním by mohla být
digitalizace různých státních nebo soukromých archivů s využitím nabytých
dovedností. Z mnoha stran evidujeme poměrně silný zájem, nicméně problémem je
současná ekonomická recese a s ní související nedostatek finančních prostředků.
Pustili jsme se tedy do práce z trochu jiného soudku, a sice do multimediální
učebnice dějin hudby. Obecně lze říci, že naše firma Aion CS dnes stojí na dvou
nohách. První je elektronické publikování, jehož dominantním produktem je právě
Ottova encyklopedie obecných vědomostí, druhou Internet a vše, co s ním
souvisí. Dosavadní vývoj přitom potvrzuje, že obě naše činnosti Internet a
elektronické publikování spolu velmi úzce souvisejí. Multimediální projekty se
dnes už totiž ve světě většinou chápou jako projekty tvorby obsahu pro Internet
a ta cédéčka jsou jen jakýmsi bočním a dočasným produktem tohoto proudu.
Děkuji za rozhovor.

9 1805 / Mafn

Ottův slovník naučný
27 základních svazků z let 1888 až 1908 + 1 svazek dodatků z roku 1909
= cca 180 000 hesel, 5 000 obrázků začleněných v textech a 500 obrazových
příloh na 29 000 stranách

Ottův slovník naučný nové doby
12 ze 14 plánovaných svazků, které vyšly v letech 1930 až 1943 = cca 60 000
hesel, 1 200 obrázků začleněných v textech a 300 obrazových příloh na 9 000
stranách
(zbylé 2 svazky s písmeny V-Ž nebyly nikdy publikovány)
Ottova encyklopedie obecných vědomostí na CD-ROMu
Celkem 3 CD-ROMy:
1. Digitální replika (přesné kopie jednotlivých stránek Ottova slovníku v
prostředí Adobe Acrobat Reader 45 000 hypertextových odkazů)
2. Vyhledávání v plných textech prostřednictvím Tovek Tools (implementace
fulltextové technologie Topic firmy Verity)
3. Mapové přílohy (soubor map a příloh, které se z prostorových důvodů nevešly
do digitální repliky)
Ottova encyk. nové doby na CD-ROMu
1 CD-ROM s digitální replikou, fulltextovým prohledáváním i mapovými přílohami
(obsahuje 12 000 hypertextových odkazů)

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.