Jak používat OCR? [I] - Readiris 4.17

1. 1. 2001

Sdílet

Readiris je šikovný nástroj, který dokáže pomocí skeneru snímat ("grabovat")faxy, knihy a další dokumenty a převést je do editovatelného textu, přičemž dodržuje původní uspořád
Readiris je šikovný nástroj, který dokáže pomocí skeneru snímat ("grabovat")
faxy, knihy a další dokumenty a převést je do editovatelného textu, přičemž
dodržuje původní uspořádání.

Belgická společnost I.R.I.S. uvedla na podzim na trh zbrusu nový produkt
nazvaný Readiris Pro 6.0. Uživatelé nových skenerů Hewlett-Packard nebo AGFA
již tento nástroj znají, neboť je dodáván spolu s nimi.

Nás ale těší, že vám můžeme nabídnout zdarma zvláštní verzi programu Readiris
4.17 CUP. Ta sice není tak sofistikovaná jako ta nejnovější, jedná se však o
plnou verzi schopnou číst 55 jazyků. Za normálních okolností je časově omezená,
nicméně lhůta vám bude určitě dostačovat k vyzkoušení produktu podle zde
uvedeného návodu. Navíc máte možnost získat zdarma od společnosti I.R.I.S.
klíč, kterým časové omezení softwaru odblokujete. K získání klíče stačí, abyste
se zaregistrovali přímo u společnosti I.R.I.S. Navrhujeme vám, abyste k
následujícím odstavcům přistupovali jako ke stručnému návodu, jehož cílem je
seznámit vás s technologií OCR.

Ze všeho nejdříve vysvětlíme význam některých termínů, které se v technickém
jazyku OCR běžně používají a mají zároveň určité historické pozadí.


Co je OCR?

Zkratka OCR znamená "Optical Character Recognition" (optické rozpoznávání
znaků) a popisuje proces, kdy je z papírového dokumentu naskenován obraz a
následně je z tohoto obrazu "extrahován" text.

Tímto způsobem jsou papírové dokumenty konvertovány do editovatelných
počítačových souborů. To je přesně to, oč tu běží. Zadáváte text do PC, aniž
byste jej museli přepisovat, a navíc máte své informace v počítači mnohem
rychleji. Rozpoznávání textu je 20až 25krát rychlejší než ruční přepisování.
Pro srovnání si uvedeme pár čísel: zatímco velmi rychlá sekretářka napíše 200
znaků za minutu, OCR rozpozná několik stovek znaků za sekundu. (Nutno přidat
určitou dobu pro proces skenování a pro obsluhu softwaru.)

OCR lze také použít, když budete chtít převést do počítače tabulky s čísly,
takže se ve vaší kanceláři může stát velice efektivním nástrojem.


Odkud tato technologie pochází?

Ačkoli vývoj OCR začal již před 30 lety ve výzkumných laboratořích umělé
inteligence, přesto je tato technologie celkem neznámá i pro lidi, kteří by ji
mohli používat při každodenní práci. První OCR byly velmi pomalé a nebyly zcela
přesné. Ve většině případů se omezovaly na rozpoznávání speciálních fontů
(OCR-A, OCR-B). Ale stejně jako v ostatních oblastech počítačové vědy, dochází
i zde k obrovskému vývoji. První komerční produkty OCR na platformě PC se
objevily na konci 80. let. V 90. letech se tato technologie zpřesnila,
zrychlila a stabilizovala. A tak zatímco se výkon zvyšoval, ceny OCR a skenerů
výrazně klesaly.

Dnes je již většina skenerů dodávána spolu s OCR softwarem. Lze proto
předpokládat, že s ohledem na rapidně rostoucí trh s multifunkčními periferiemi
(fax, skener a tiskárna v jediném přístroji) se může OCR stát stejně využívanou
aplikací jako textový editor.


Jak OCR funguje?

Po naskenování získáme z papírového dokumentu "obraz" a následně je z tohoto
obrazu "extrahován" text. Co se však ve skutečnosti děje? Můžeme si proces OCR
více specifikovat?

Skener funguje jako "oko" počítače a vytvoří obraz. V tomto kroku je obraz
dokumentu pouze nesmyslný shluk černých teček (pixelů) a bílého pozadí. Z
pixelů extrahuje OCR textové informace tak, že rozlišuje tvary liter a
přiřazuje je ke znakům. To provádí v několika krocích.

Prvním krokem je segmentace řádek. Rozdělí stránku s textem do samostatných
řádků, analyzuje zkosení řádků, jejich rozteč, iniciály a odděluje řádky, které
se dotýkají.

Fáze segmentace slov a znaků izoluje jedno slovo od druhého a odděluje
jednotlivá písmena ve slově. Pokud mají znaky stejnou šířku (např. v DOSu), je
segmentace znaků jednoduchá. Problémy nastávají, pokud šířka písmene závisí na
jeho tvaru (proporcionální písmo), jestliže dochází k převisu určité části
písmene a k dotýkání znaků (ligatury), nebo když se používají fonty
jehličkových tiskáren (znaky vytvořené ze shluků izolovaných teček).

V posledním kroku je ke každému samostatnému tvaru přiřazen podle
charakteristiky daného znaku správný symbol. OCR analyzuje segmentované znaky
tak, jako to dělají nevědomky lidé. Extrahuje tvary (čáry, kličky, mezery,
uzly, úhly, apod.) a porovnává je vůči předdefinovanému nebo naučenému zdroji
znalostí. Tento přístup se nazývá "topologická analýza". Její hlavní výhodou
je, že takto získáte omnifontovou identifikaci znaků, do značné míry nezávislou
na velikosti fontu.


Jaká je role uživatele v procesu OCR?

Zcela jednoduchá! Naskenuje dokument a označí, co ho zajímá. O vše ostatní se
již postará OCR. Novým uživatelům jistě bude vyhovovat průvodce, vedoucí
procesem OCR pomocí jednoduchých, přímých otázek. Práci s OCR lze ještě více
zjednodušit využitím automatického režimu. Uživatel jen skenuje předlohy, a
poté je ukládá jako textové dokumenty. Můžeme tomu klidně říkat: "opis textů na
jedno kliknutí"!


Jaká je úloha lingvistiky v procesu OCR?

Softwarové balíky OCR obsahují lingvistické databáze nebo lexikony. K čemu se
využívají? Systém se s jejich pomocí učí nové znaky a využívá k tomu
kontextovou analýzu. Lingvistické znalosti týkající se slabik a slov tak
zvyšují výkonnost OCR. Aby nedocházelo k záměně vlastních jmen nebo cizích slov
za známá slova vybraného jazyka, neposkytuje lingvistická analýza žádné pevné
výsledky. Místo toho používá tzv. fuzzy logiku, která kombinuje výsledek s
lingvistickými daty a přiřazuje váhu možným řešením.

Je důležité, abychom si uvědomili, že systém používá lingvistiku v průběhu
rozpoznávací fáze, a ne po ní! Lingvistika je podstatnou částí rozhodovacího
procesu, nezaměňujte proto lingvistický modul Readirisu za kontrolu pravopisu,
kterou můžete použít až na rozpoznaný text.


Čím je výjimečná technologie OCR společnosti I.R.I.S., a co znamená
"connectionist"?

Technologie společnosti I.R.I.S. je neoddělitelně spojena se slovem
"connectionist". Jeho znakem je na fontu nezávislá extrakce znaků, doplněná o
samoučicí technologie odvozené z patentované neurální sítě. Co se za touto
poučkou skrývá? Již dříve jsme si uvedli, že OCR provádí topologickou analýzu,
při níž využívá virtuální rozpoznávání fontů (příklad omnifontu). Při
lingvistické kontextové analýze ji doplňuje o výše uvedenou samoučicí se
logiku. To vše je však třeba použít v pravý čas a na správném místě. A právě to
má za úkol neurální síť, která používá k organizaci analýz neurální rozhodovací
model.

Readiris má tedy vše, co má mít. Existují však nějaké výjimečné vlastnosti,
které jsou pro filosofii společnosti I.R.I.S. charakteristické? Takovou
vlastností je jistě samotné ovládání produktu Readiris. Uživatel označuje v
dialogovém okně sporné znaky, a tím zároveň zvyšuje přesnost systému. Všechna
takto vybraná řešení si totiž software zapamatuje, a to postupně zvyšuje jeho
rychlost a zároveň snižuje chybovost. Čím více Readiris používáte, tím
inteligentnějším jej činíte! Readiris můžete dokonce vytrénovat na zvláštní
znaky (např. matematické symboly) nebo mu pomoci vyrovnat se s deformovanými
fonty, jaké se nacházejí ve skutečných dokumentech.

Druhým výjimečným znakem je počet podporovaných abeced a jazyků. Readiris čte
55 jazyků, včetně řečtiny, japonštiny, čínštiny a jazyků psaných azbukou, což v
porovnání s ostatními OCR nemá obdobu!



Začínáme...

1. Readiris máte nainstalován na disku. Chcete--li zahájit práci, klikněte na
menu Start, přejděte na Programy, a potom na IRIS Applications a Readiris. V
rolovacím menu naleznete spoustu ikon. Pomocí několika prvních z nich
přistupujete k dokumentům ve formátu pdf (Acrobat Reader), další umožňuje
program odinstalovat, je zde i hypertextový odkaz na webovou stránku výrobce, a
především ikona pro spuštění aplikace.

2. Po spuštění programu vás přivítá průvodce registrací, kde si pomocí tlačítka
Request the key můžete vyžádat klíč, jenž odstraní časový limit pro použití
aplikace. Chcete-li se registrovat později, stiskněte tlačítko Register later.
V tom případě se objeví průvodce po OCR. Jeho použití je velmi intuitivní,
musíte pouze odpovědět na několik otázek a celá aplikace se rozeběhne sama.
Průvodce se vás zeptá, zda je dokument, který se má zpracovat, soubor, nebo zda
ho chcete teprve naskenovat. Pro začátek klikněte na obrazový soubor (Image
file) a k práci použijte vzorový dokument. Pak zvolte jazyk dokumentu typicky
češtinu.

3. Pomocí následujícího okna si zvolíte, v jakém formátu chcete výsledky OCR
ukládat. K dispozici je více možností, ale pokud vám nevyhovují, klikněte na
tlačítko Change, a změňte je. Používáte-li MS Word, nastavte si Format: Rich
text format, Paragraph: On, Layout: Recreate source document. I přesto budete
mít stále možnost rozvržení dokumentu zachovat nebo měnit.

4. Po potvrzení vašeho výběru se průvodce zeptá, zda jste připraveni začít s
rozpoznáváním klikněte tedy na Go. V objevivším se okně zvolte vzorový soubor a
potvrďte OK. Poté začne Readiris s analýzou a zahájí rozpoznávání textu a jeho
uspořádání.

5. Po této analýze přejde program automaticky na druhou fázi. Požádá vás,
abyste potvrdili správnost některých slov, písmen či prvků, jimiž si není zcela
jist, a případně je opravili.

6. Po dokončení této fáze Readiris automaticky otevře okno s textovým souborem
v předdefinovaném formátu. Jedná se o textový soubor generovaný systémem ze
zdrojového obrazového souboru. Po uložení souboru zobrazí Readiris celkový
pohled na dokument, kde jsou naznačeny cesty, které logicky spojují odstavce.
Není nutné zdůrazňovat, že výběry provedené aplikací je možné změnit.