Jak používat OCR? [II] - READ IRIS 4.17 (na CD 1/2001)

1. 2. 2001

Sdílet

Načíst text je jedna věc, ale správně jej reprodukovat je věc druhá. Ukážemevám pár triků, jak dostat z OCR Readiris maximum. Minule jsme si uvedli, že při optickém rozpoznávání z...
Načíst text je jedna věc, ale správně jej reprodukovat je věc druhá. Ukážeme
vám pár triků, jak dostat z OCR Readiris maximum.

Minule jsme si uvedli, že při optickém rozpoznávání znaků pracujeme s
jednotlivými literami. Pomocí složitých procesů OCR postupně rozpoznává,
analyzuje a převádí znaky do počítačového jazyka písmen a čísel.

K rozpoznávání používá Readiris při různých krocích různé technologie. Nejprve
provede řádkovou segmentaci, kdy rozdělí text do řádek. Poté pomocí analýzy
mezer rozdělí řádek na jednotlivá slova a nakonec izoluje každé písmeno.
Oddělování jednotlivých písmen je jednoduché, jestliže jsou mezery mezi nimi
fixní. Složitější situace nastává u proporcionálního písma, kde se velikost
mezery mění podle typu a velikosti liter.

Nyní hlouběji do procesu rozpoznávání. Nejprve je nutné provést topologickou
analýzu, tj. analyzovat každý znak samostatně. Např. tvar písmene "a" je zcela
odlišný od písmene "b", naproti tomu písmena, jako "i" a "l", si jsou velmi
podobná. Navíc, pokud není skener řádně nastaven, může tečka nad "i" splynout
se základem písmene.

Readiris nabízí různá řešení těchto problémů. K ohodnocení sporných slov
používá lingvistické slovníky. Vezměte si třeba slovo "maličký". Pokud je
rozpoznáno jako "mallčký" nebude tento návrh brán jako lingvisticky správné
řešení. V takovém případě je na uživateli, aby provedl opravu výrazu.


Analýza, nezbytná fáze

Pro dosažení vyššího procenta přesnosti rozpoznávání vám doporučujeme používat
interaktivní analýzu. Způsob použití vysvětlíme na následujícím příkladu:

Spusťte Readiris 4.17 a přivítá vás průvodce (pokud ne, spusťte jej sami z
ikony "OCR Wizard" na levé ovládací liště). Klikněte na "Next", vyberte "Image
file", a potvrďte kliknutím na "Next". V dalším okně si zvolte jazyk (Change ->
Czech -> OK) a znovu klikněte na "Next". Průvodce vás požádá, abyste vybrali
formát výstupního souboru. Ponechte navrhovaný formát s hodnotami "Format: Rich
Text Format; Paragraph: off; Layout: Recreate source document". Po odkliknutí
"Next" potvrďte nastavení kliknutím na "Go". Nyní se vám otevře okno v
základním adresáři se zdrojovými obrazovými dokumenty (pokud jste je spolu s
programem nainstalovali). Zde označte soubor Czech.tif a poté klikněte na
"Open". Automaticky se spustí rozpoznávací proces a Readiris otevře okno, v
němž budete provádět korekce. Abyste se vyhnuli možným inkoherencím, bude vám
program asistovat během celého procesu. Nakonec získáte téměř perfektní text,
který můžete uložit do adresáře pro výstupní soubory.


Více písmen, méně chyb

Nyní spustíme OCR znovu na tentýž text, avšak použijeme slovníky, které jsme
vytvořili během předchozí operace. Klikněte v nabídce na "Learn" a vyberte
volbu "Append font dictionary". Dialogové okno vám nabídne stejný slovník jako
v předchozím kroku, tj. "Readiris.DUS". Přejmenujte soubor na "Czech.DUS" a
potvrďte výběr.

Klikněte na tlačítko "Recognise" na levé liště hlavního okna. Dostanete se do
interaktivního výukového režimu a budete používat svůj vlastní slovník. Stejně
jako dříve se vás bude program během rozpoznávání ptát na váš názor na
problematické znaky. Abyste získali správné řešení, zadávejte opravy a
potvrzujte je pomocí tlačítka "Learn". Toto proveďte s celým dokumentem a pak
uložte soubor pod názvem "Czech.rtf". Nyní zkuste znovu tlačítko "Recognise".
Readiris opět automaticky spustí proceduru rozpoznávání, avšak tentokrát bude
používat slovník "Czech.DUS", který obsahuje všechny dříve provedené opravy.
Uvidíte, že se dostanete na konec dokumentu velmi rychle.

Tak získáváte rychlejší OCR s vyšší mírou rozpoznávání.


Slovník v každém případě

Readiris nabízí standardní slovník, umožňující přidávat slova a vyhýbat se
záměnám mezi znaky nebo skupinami podobných znaků. Navíc si můžete vytvořit i
více slovníků. Ve skutečnosti totiž existuje celá řada možností, jak
reprodukovat jeden znak (velké písmeno, malé písmeno, tučně, kurzíva, apod.).
Dá se říci, že u běžných znaků "i" a "l" je možnost záměny malá, avšak mezi "I"
číslicí "1" je pravděpodobnost záměny značně vysoká. Tyto dva tvary si jsou
velmi blízké. Proto by se měly v ideálním případě používat různé slovníky, z
nichž by každý měl odpovídat speciálnímu typu písma.


Maximalizace programu

Představme si, že chceme digitalizovat celou knihu. Zde bude typ fontu stále
stejný. Jestliže vytvoříte specifický slovník, budete zvyšovat míru
rozpoznávání stránku po stránce. Ale pokud pracujete s různými dokumenty s
odlišnými typy fontů, doporučujeme používat různé slovníky.


Jaká jsou omezení pro používání OCR?

Readiris umí rozlišovat mezi obrazovým a textovým blokem. V rámci textového
bloku umí identifikovat přesahující písmena (první písmeno větší než zbytek
znaků ve větě). Avšak existují omezení ve velikosti fontů. Readiris dokáže
přečíst fonty o velikosti mezi 6 a 72 body. Program přečte téměř všechny druhy
tištěného textu (psaný na psacím stroji, tištěný na laserové nebo inkoustové
tiskárně). Dokonce je možné číst texty tištěné na jehličkové tiskárně s 9 nebo
24 jehličkami (kvalita draft nebo letter), kdy OCR musí číst shluk izolovaných
teček. K tomu je nutná specifická segmentace a speciální rozpoznávací technika.
Pro tento případ je v nabídce "Settings" volba "Font Type">"Dot Matrix". Pokud
k sejmutí vašeho dokumentu používáte skener, nezapomeňte na to, že je velice
důležité nastavení hodnot jas, barva, apod.


Něco o nastavení skenerů

Pro získání dobrých výsledků doporučujeme rozlišení 300 dpi. Profesionální
verze produktu Readiris 6.0 umožňuje skenování v barvě. Na rozdíl od ostatních
OCR na trhu, které mají automatickou binarizaci obrazu v černobílé, nabízí
Readiris 6.0 možnost černobílý obraz ladit (smoothen colour image, despeckle,
brightness), a tak získat nejlepší možné výsledky. To přivítají zvláště ti
uživatelé, kteří pracují s obtížně zpracovatelnými dokumenty, např. se starými
knihami, nekvalitním papírem, špatným tiskem znaků, apod.




Správné využívání slovníků fontů

1. Poté, co zahájíte proces rozpoznávání (manuálně nebo prostřednictvím
průvodce OCR), spustí se automaticky interaktivní výukový proces (v případě, že
není deaktivován!) s předvoleným slovníkem "Readiris.DUS".

Objeví se okno specifikující typ slovníku (vybraný nebo předdefinovaný). Za ním
je uvedená cesta, která indikuje umístění slovníku na disku (například: "New
dictionary: C:\Readiris\Readiris. DUS"). Do tohoto slovníku budou zanášeny
všechny opravy. Po dokončení rozpoznávání můžete soubor uložit pod jiným jménem.


2. Jestliže systém váhá nad výsledkem rozpoznávání, zobrazí se v okně sporný
tvar, kde je zvýrazněn znak nebo řetězec znaků (pokud nejsou odděleny) a OCR
nabízí řešení. Nerozpoznané znaky jsou signalizovány jako "~". Je-li to nutné,
napište správný znak a stiskněte Enter nebo klikněte na "Learn" na pravé straně
okna. Tím doplňujete slovník, který bude možné použít pro podobné dokumenty.
Při každém dalším použití bude slovník registrovat více a více položek, a to
tak dlouho, dokud OCR nepřestane pokládat další dotazy a dokud nebudou
začleněny všechny odpovědi.


3. V některých případech je navrhovaný znak zlomený nebo poškozený. Tehdy
zadejte správný znak nebo řetězec znaků, a potom klikněte na tlačítko "Don\t
Learn". Tak se vyhnete zanášení sporných informací do vašeho slovníku. Při
příštím výskytu takových znaků však bude Readiris opět vyžadovat váš zásah.


4. Readiris otevře v interaktivním režimu okno, které ukazuje bitmapový obrázek
zpracovávané části dokumentu. Někdy, pokud obraz není dost dobrý (špatný skener
a/nebo nekvalitní skenování), se mohou objevit v ověřovacím okně parazitní
znaky. V tomto případě doporučujeme tyto nepotřebné znaky vymazat.


5. Readiris vrací zpět záznam posledních devíti operací výukového procesu
pomocí tlačítka "Undo". Tato možnost je zvláště zajímavá, pokud jste vymazali
znak, který vymazán být neměl.


6. Poslední tlačítka, která máte k dispozici, jsou "Finish" a "Abort". "Finish"
ukončí interaktivní výukový systém, automaticky dokončí rozhodovací fázi a
uloží slovník všech přijatých rozhodnutí. Tlačítkem "Abort" stornujete celý
proces rozpoznávání.


7. Kvalita slovníku má přímý dopad na míru schopnosti rozpoznávání produktu
Readiris. Proto vám doporučujeme ukládat různé slovníky podle různých typů
fontů a znaků. Slovník můžete po dokončení rozpoznávání uložit, a potom znovu
použít pro ostatní dokumenty s podobným typem písma. V takovém případě vyberte
na začátku nové úlohy volbu "Append dictionary" z menu "Learn" a v nově
otevřeném okně vyberte slovník (název.DUS).


8. Funkce "Append dictionary" znamená, že všechny opravy, které byly provedeny
během výukového procesu budou ukládány do vybraného slovníku. Během využívání
tohoto slovníku budou opravy přidávány, a to v konečném důsledku značně zvýší
přenosnost a rychlost rozpoznávacího procesu.


9. Volba "Read font dictionary" vybírá slovník, avšak neukládá do něho nové
informace.