Do kanceláří nového tisíciletí papír rozhodně nepatří!

Jak bylo již předesláno na titulní straně Technology Worldu, povíme si dnes něco bližšího o takzvaných bezpapírov


Jak bylo již předesláno na titulní straně Technology Worldu, povíme si dnes
něco bližšího o takzvaných bezpapírových kancelářích. Doba, kdy papír skutečně
potřebovat nebudeme (alespoň v kanceláři), je sice ještě daleko, ale možná ne
tak, jak by se mohlo na první pohled zdát. Už dnes je nicméně evidentní, že
práce s dokumenty v elektronické podobě poskytuje mnohem větší komfort a
efektivitu.
Co si můžeme pod pojmem bezpapírová kancelář představit? Dá se říci, že se
jedná o systém softwarových a hardwarových produktů a technologií, který nám
umožní práci s dokumenty v elektronické podobě. Popíšeme si, jakou podobu může
takový systém mít.
Jádrem je softwarový produkt (nebo více produktů) označovaný jako systém pro
správu dokumentů. Pod správou dokumentů rozumíme ukládání, vyhledávání, šíření
v organizaci i mimo ni, výměnu a sdílení informací ve formě dokumentů. Dalšími
nedílnými součástmi bezpapírové kanceláře jsou:
skenery
server a pracovní stanice
síť
tiskárny
optická a magnetická média a disky
archivační knihovny, juke-boxy
Hardware, software a sítě
Hardwarová část systému je tvořena serverem a klienty, to jest pracovními
stanicemi. Serverovou část můžeme dále rozdělit na databázový server a
aplikační server. Server většinou podporuje některou z platforem operačních
systémů Windows NT nebo UNIX (HP-UX, AIX atd.). Mezi nejrozšířenější aplikace v
oblasti správy dokumentů patří produkty společností Documentum, FileNET a PC
DOCS/Fulcrum.
Databázový server podporuje platformu příslušného databázového systému. Těmi
nejběžnějšími používanými databázovými systémy jsou Oracle, MS SQL Server,
Informix a Sybase. Strana klienta pak obvykle podporuje Windows 95/98/NT 4.0
Workstation.
Stejně tak struktura sítě se neliší od běžných řešení. Systémy podporují jak
sítě typu LAN, tak typu WAN (standardní protokoly TCP/IP, httpd apod., síťové
OS jako WinNT 4.0, Novell NetWare 5.0...). Přístup k dokumentům prostřednictvím
webových stránek lze už považovat za samozřejmost.
Životní cyklus dokumentu
Než se dostaneme k samotnému životnímu cyklu, je možná na místě upozornit, že v
průběhu posledních let se v souvislosti s prudkým rozvojem výpočetní techniky
poněkud změnil i náhled na samotné slovo "dokument". V původním významu vlastně
znamenalo tištěnou informaci. Jak už vyplynulo i z dosavadního obsahu článku,
taková definice je pro naše účely nepoužitelná. Jako mnohem lepší se proto jeví
definice dokumentu společnosti Xerox: "Informace strukturovaná pro chápání
člověka."
Samotný životní cyklus dokumentu je nejčastěji rozdělován do tří nebo čtyř
etap, pro naši potřebu si nyní vystačíme se třemi:
1. zpracování v této fázi je dokument fyzicky vytvořen, revidován a opravován
(každý jeho pohyb a změna jsou zaznamenány) až do svého úplného schválení.
2. publikování dochází ke zveřejnění, dokument může být zpřístupněn např. pouze
v rámci organizace elektronickou poštou, vytištěním nebo širší veřejnosti
prostřednictvím webových stránek, jako CD-ROM atd.
3. užití vyhledávání dokumentů, vyhledávání informací, archivace, skartace.
Pořízení dokumentu
Dokumenty v elektronické podobě, které jsou předmětem správy, lze získat
několika způsoby:
1. Přímé ukládání dokumentů týká se dokumentů v elektronické podobě, tj.
souborů vytvořených přímo na počítači např. textovými nebo tabulkovými editory
(MS Word, Excel) a dalšími aplikacemi. Takové soubory mohou být ihned ukládány
do struktury systému.
2. Import dokumentů z jiných systémů.
3. Skenování dokumentů naskenovaný obrázek lze upravit aplikací pro Document
Imaging, tzn. je obvykle zkomprimován a uložen v obrazovém formátu. Další
možností je využití modulu OCR (optické rozpoznání textu), máme-li jej k
dispozici, a export např. do textových formátů (doc, rtf, pdf... ).
4. Vstup z faxu elektronický faxový soubor je také obvykle upravován pomocí OCR.
Věnujme nyní pozornost konverzi papírové formy dokumentu do digitálního
formátu. Pomineme-li ruční přepis, jedinou možnou volbou zůstává skenování a
úprava naskenovaného dokumentu. Proto jistě nebude na škodu detailnější pohled.
Převod digitálního obrazu do textového formátu
Nyní se budeme podrobněji zabývat technologií OCR. Za touto zkratkou se skrývá
název Optical Character Recognition, v českém jazyce optické rozpoznání textu.
Již z názvu je patrné, že je to právě OCR, které hraje klíčovou roli v převodu
původní papírové formy dokumentu do digitální podoby. Dá se říct, že bez této
technologie už si lze moderní produkty pro správu dokumentů jen stěží
představit.
Naskenovaný papírový dokument nebo elektronický faxový soubor představuje
elektronický obraz tohoto dokumentu, který je pak předmětem úpravy pomocí
technologií OCR. Nejčastěji používaným formátem elektronického obrazu je formát
TIFF (Tagged-Image File Format). Optické rozpoznání textu můžeme definovat jako
proces, v němž je obraz textu převeden na soubor znaků. To znamená, že z
původního papírového dokumentu získáme text, který můžeme dále počítačově
zpracovávat a upravovat. Výsledek tohoto procesu je tedy možné například
exportovat do některého textového editoru, tabulkové nebo databázové aplikace
či DTP (DeskTop Publishing).
Z toho plyne využití OCR: je nezbytné všude tam, kde text převáděný do
elektronického bude zpracován, upravován nebo převáděn do jiných formátů.
Stejně tak jej využijeme tam, kde je nutné používat fulltextové vyhledávání,
jaké známe z internetových vyhledávacích programů. Svoji roli hraje také
velikost souboru. Je nezanedbatelná především tam, kde je nutné data
archivovat, neboť velikost obrázku tvořeného bitmapou je mnohokrát větší nežli
velikost OCR textového souboru. Nevýhodou oproti kopii v podobě bitmapy je
určitá nepřesnost převodu, ale v případě nutnosti dalšího zpracování dokumentu
je obrázek nepoužitelný.
Systémy DIP (Digital Image Processing), které nejsou vybavené touto
technologií, jsou schopny pracovat pouze s obrazy dokumentů, které kromě
komprese nelze dále upravovat. Jediné operace, které s nimi lze provádět, jsou
jejich zobrazení pomocí výstupních zařízení, to jest na monitoru, displeji,
tiskárně a podobně. Počítač je vnímá jako obrázek.
Jak OCR pracuje
Podívejme se tedy podrobněji, jakým způsobem optické rozpoznání textu probíhá:
Při zpracování papírového dokumentu je nutno jej nejdříve naskenovat. Takto je
vytvořen rastr síť bodů (pixelů) uspořádaných do matice. Toto se děje na
základě změn intenzity světla, které se odráží od dokumentu. Intenzita světla a
barva předlohy je uložena v podobě binárního čísla.
Důležitým parametrem při procesu skenování je rozlišení. Zde záleží především
na "čitelnosti" předlohy, což neznamená nic jiného než její kvalitu a velikost
písma. Obvykle se jako postačující ukazuje rozlišení 200-400 dpi. Vyšší
rozlišení (600 dpi) je vhodné spíše pro rozpoznání velmi malého písma nebo pro
archivaci obrázků.
Optické rozpoznávání probíhá v několika krocích. Ze všeho nejdříve je provedena
identifikace textových a obrázkových bloků elektronického obrazu (na základě
bílých ploch dokumentu dojde k nastavení pořadí při rozpoznávání). Obrázky jsou
pak ve výstupních formátech jako ASCII vypuštěny. V této fázi musí být některé
části textu jako nadpisy a tabulky označeny ručně (tzv. zónování, identifikace
a číslování jednotlivých bloků). To bude nutné zejména tam, kde jsou použity na
pozadí textů obrázky nebo kde text obsahuje obrázky či tabulky.
Následuje proces samotného rozpoznání znaků. Je analyzován jeho tvar znaku a
ten je porovnán se souborem norem, které definují jednotlivé znaky a jejich
odlišnosti. Poté jsou identifikována a rozpoznána celá slova jako textové
řetězce, které jsou porovnány se slovníkem v příslušném jazyce.
Výsledný soubor je uložen v určitém formátu specifickém pro daný OCR program.
Podobně, jako to známe např. u Wordu, jsou zvýrazněny ty řetězce, které nebyly
rozpoznány, a je provedena jejich případná oprava.
Posledním krokem je konverze takto vzniklého souboru do potřebného formátu,
většinou tedy txt, doc, rtf nebo pdf. Možnosti opět závisí na nabídce
konkrétního softwarového produktu.
Kdy je vhodné OCR použít
Stejně jako všechny v současné době používané technologie i OCR prodělává
neustálý rozvoj, a nutno dodat, že již dnes některé produkty disponují
úctyhodnými parametry. Dosahují například rychlosti rozpoznávání téměř 200
znaků za sekundu a přesnosti bezmála sto procent (je uváděno až 99,9 %, větší
úspěšnost můžeme očekávat u anglických textů, které neobsahují diakritiku). To
jsou vlastně nejdůležitější parametry pro posuzování efektivity použití OCR.
Zde se dostáváme k problému rozhodování o vhodnosti použití optického
rozpoznání. Naším cílem totiž není nic jiného než snížení nákladů v porovnání s
náklady ručního přepisu. Je uváděno, že při přesnosti nižší než 98 % je vhodné
použít ruční přepis (vzhledem k počtu vyžadovaných úprav a oprav chyb vzniklých
při převodu).
Přesnost rozpoznání je závislá na více faktorech. Uvedli jsme kvalitu
dokumentu, takový nedostatek lze tedy v některých případech řešit vyšším
rozlišením (většinou je použito 300 dpi, je nutno dodat, že zvýšením na 400 dpi
výrazného zlepšení kvality nedosáhneme). Vliv má kvalita papíru a tisku, typ
písma dokumentu, kontrast mezi textem a pozadím, počet použitých druhů písem,
znakových sad atd. K tomu všemu pak připočtěme kvalitu a vhodnost samotného
hardwaru a softwaru, to jest skeneru a rozpoznávacího algoritmu.
Vyhledávání a přístup k dokumentům
Dokumenty je možno indexovat podle indexů s pevnou nebo proměnnou strukturou.
Ke každému dokumentu lze přiřadit různé atributy, jejichž souhrn tvoří tzv.
profil dokumentu. Pole atributů je možné svázat s vyhledávacími tabulkami a
vzájemně hierarchicky provazovat. Tento typ polí pak můžeme využít pro řízenou
indexaci dokumentů. Fulltextové vyhledávací mechanismy indexují obsah i profil
dokumentu. Potom máme možnost fulltextového prohledávání dokumentů podle jejich
obsahu, podle profilu, nebo kombinací obou možností.
Většina systémů podporuje přístup k dokumentům on-line, off-line i near-line
(tj. přístup k archivační knihovně). Pro jednotlivé uživatele nebo pro jejich
skupiny je možné nastavit přístupová práva k dokumentu na několika úrovních.
Uživateli je možno přístup k němu zcela zakázat, povolit čtení nebo čtení i
zápis. S dělením těchto úrovní je možné zajít ještě dále a specifikovat tato
práva zvlášť pro samotný dokument a pro jeho profil.
Aplikace dále umožňují sledovat historii přístupů a akcí prováděných s
dokumentem. Důležitou součástí jsou workflow systémy pro řízení a monitorování
průběhu zpracování a vůbec celého životního cyklu dokumentu.
Ukládání dokumentů
Každý dokument je reprezentován dvěma částmi: částí popisnou, označovanou běžně
jako metadata, a vlastním dokumentem. Metadata slouží k poskytování základních
informací o dokumentu, jsou tvořena jeho profilem a informacemi o přístupových
právech a existujících verzích. Jsou uložena v RDBMS (řídící systém relační
databáze). Vlastní dokument je uložen ve formátu, v němž byl vytvořen, na
dokumentovém serveru v systému souborů.
V závislosti na fázi životního cyklu, ve které se dokument v dané chvíli
nachází, je uložen na určitém druhu paměťového média.
Ve fázi zpracování je dokument ukládán do cache paměti. Ta je tvořena
magnetickým médiem, neboť hlavním hlediskem v této etapě je rychlost přístupu k
upravovanému dokumentu. V rychlosti přístupu optická média stále nemohou s
magnetickými soupeřit. Hodnoty rychlosti přístupu se u nich totiž pohybují
přibližně v rozmezí 35-200 ms, zatímco u magnetických je to zpravidla v průměru
méně než 15 ms. Na tomto místě je také důležité si uvědomit, že je velmi
výhodné, umožňuje-li systém jako cache paměť využít lokální paměť na pracovní
stanici (např. harddisk). Nedochází tak ke zbytečnému zatěžování sítě.
Naproti tomu pro potřebu archivace dokumentů optická média vítězí na celé čáře
jak z důvodu životnosti (je uváděno 10-100 let), tak pro několikrát nižší
náklady na archivaci v přepočtu na megabyte paměti. Kapacita magnetických médií
dosahuje maximální hodnoty cca 1 GB, u optických je to až 17 GB. Po zápisu na
optické médium je dokument z cache paměti obvykle smazán.
Při archivaci je nezbytná přístupnost všech dat, proto nejsou používány
klasické mechaniky pro optická média, ale juke-boxy. Juke-box je ovládán
dokumentovým serverem, k němuž je připojen. Server zpracuje požadavek, nalezne
ID (identifikační kód) příslušného optického disku, vyšle instrukci juke-boxu,
který jej přimontuje a hledaný soubor odešle serveru. Existují již také
takzvané inteligentní juke-boxy, obsahující řídicí počítač a databázi ID, tím
se celý proces zjednoduší a urychlí. Je samozřejmé a také poměrně nevýhodné, že
probíhá-li zpracování jednoho požadavku, ostatní se musejí zařadit do fronty,
což je časově dosti náročné. Modernější juke-boxy jsou schopny provést výměnu
disku za 5-10 sekund.
Dalším příkladem archivního systému je COLD (Computer Output to Laser Disk).
Podobně jako juke-box i COLD pracuje s optickou technologií, je však určen pro
archivaci dokumentů generovaných počítačovými aplikacemi jako MS Word, Excel,
Lotus 123 a podobně. Juke-box naproti tomu archivuje dokumenty v obrazovém
formátu.
Výhody bezpapírové alternativy
Cílem, a nutno podotknout, že většinou také výsledkem elektronické správy
dokumentů je bezesporu zlepšení interní i externí efektivity organizace. Tím se
současně vytváří tlak na ostatní firmy, které do podobného systému doposud
neinvestovaly. Pro udržení konkurenceschopnosti budou totiž nuceny dosáhnout
srovnatelné efektivity.
Poměrně přesně můžeme specifikovat všechny faktory, které mají vliv na
návratnost investic. Na prvním místě můžeme jmenovat rychlost zpracování
dokumentů, a to zejména těch, které již obdržíme v elektronické podobě, čímž
odpadá nutnost konverze.
Dále je to podstatná úspora papíru, místa a nákladů na archivaci papírových
dokumentů. Je nutné si navíc uvědomit, že chceme-li si zachovat možnost
přístupu podle více různých kritérií, nezbude nám nic jiného, než vytvořit
potřebný počet kopií dokumentu a ty zařadit do všech příslušných složek. Tím se
tyto náklady dále násobí.
Uvedené faktory se dají označit jako přímé, k nepřímým patří úspora času při
vyhledávání dokumentů, snížení pracnosti při aktualizaci, zjednodušení
archivace a skartace, omezení rizika ztráty nebo mechanického poškození.
"Last, but not least," jak říkáme my Angličani, daný dokument je současně
přístupný pro všechny pracovníky a výhodné je také jeho sdílení mezi různými
částmi podniku.
Při výběru konkrétního systému pro správu dokumentů hrají roli nejen možnosti,
ale do značné míry i jméno. Faktem je, že produkty největších firem se už
prakticky staly standardy a poskytují maximální komfort. Jak bylo výše uvedeno,
největší podíl na světovém trhu mají společnosti FileNET, Documentum a PC
DOCS/Fulcrum. Právě posledně jmenovaná, PC DOCS/Fulcrum, má v současné době
nejsilnější postavení na trhu (pokud jde o počet prodaných licencí), a to
přibližně 42 %. Naproti tomu FileNET má nejvyšší obrat (to je dáno tím, že
licence neprodává).
Co říci na úplný závěr? Možná vás bude zajímat, že jistá společnost si v
minulém roce (dá se předpokládat, že draze) zaplatila za studii, jejíž výsledek
je docela zarážející. Přes pozitivní ukazatele vypovídající o neustále
rostoucím prodeji PC nejsme dosud k bezpapírové podobě kanceláří blíže než před
20 lety.
I přes poněkud pesimistické tvrzení studie se dá se očekávat, že tento stav se
v několika málo následujících letech změní. Hlavním problémem nadále zůstává
návratnost investic, a to především v souvislosti s velikostí firmy jak co do
počtu zaměstnanců, tak co do administrativní náročnosti (která s ním většinou
úzce souvisí).
9 3284 / wep









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.