ReadIris 3. 90

Poslední, dle našeho názoru běžný produkt OCR, je jak již bylo uvedeno, dárkem redakce časopisu PC World svým čten


Poslední, dle našeho názoru běžný produkt OCR, je jak již bylo uvedeno, dárkem
redakce časopisu PC World svým čtenářům. A tak stačí pouze z příslušného
adresáře na dodaném CD-ROM disku program snadno nainstalovat.
Aby jej bylo možné provozovat, postačuje tentokrát dle dostupných informací
počítač s procesorem nejméně řady 386, alespoň 4 MB operační paměti RAM. Jedná
se o jediný 16bitový produkt v našem testu, což znamená, že může pracovat i pod
Windows 3.x, avšak v rozšířeném, nikoli reálném režimu.
Spuštění programu vyvolá základní pracovní okno, na jehož ploše je zobrazen
informační štítek o výrobku. Poněkud nezvykle je nutné na libovolné místo
kliknout myší, neboť jinak informace sama nezmizí, a to ani při snaze o
vyvolání položek roletového menu. Podobně jako v předchozím případě, je členěna
pracovní plocha na 2 části, přičemž levá z nich obsahuje ovládací prvky a pravá
pak náhled na zpracovávanou předlohu. Určení produktu pro Windows 3.x však
ovlivnilo i celkový vzhled aplikace a navíc nepříliš vhodně zvolený font u
popisu ovládacích prvků znamenal nesprávně zobrazené české znaky pod Windows 95.
Jako vstupní kanály je možné opět použít buď datový soubor, nebo skener. V
případě vstupu z datového souboru je možné počítat s podporou pouze formátu
TIF. V případě vstupu přímo ze skeneru je nejprve nutné vybrat v dialogovém
okně pro nastavení jeho parametrů ze široké nabídky instalovaný typ, a to buď
přímo ovládaný, nebo prostřednictvím dodávaného rozhraní TWAIN. Ani tentokrát
nechybí možnost ovlivnění jasu pro skenovanou předlohu, formát papíru,
rozlišení a orientaci výsledného obrazu, stejně jako možnost pracovat s
automatickým podavačem listů.
Ještě před vstupem dat je dobré rozhodnout o dalším chování programu a pomocí
ikon, případně volbami v hlavním menu určit, co bude následovat. Je tak
především možné aktivovat automatickou analýzu stránky. Zde je třeba
poznamenat, že ačkoli program sám využíval v testu pouze obdélníkových ploch,
disponuje i nepravidelnými tvary. Stejně jako OCR602, rozlišuje na oblasti
textové a grafické, avšak během zpracovávání předlohy není generován příslušný
počet malých obrázků, ale je vytvořena jediná plocha obsahující pouze vybrané
grafické výřezy, přesně tak, jak byly na předloze vyznačeny. Na druhou stranu
je ale možné volit formát grafického výstupního souboru, přičemž v nabídce se
nachází formát souboru TIF v různých verzích, formát pro MS Paint a PaintBrush.
Jako jediný z testovaných nástrojů této kategorie disponuje ReadIris i funkcí
pro uložení definice oblastí do souboru. To je obzvláště výhodné např. při
zpracovávání velkého množství stejně koncipovaných předloh (štítky) s
pravidelným uspořádáním. Bezpochyby se tím zajistí zcela jednotné zpracování
bez ohledu na reálně potištěnou plochu. S přesným výběrem a označováním ploch
souvisí i další velice užitečné funkce, které jednak dovolují zobrazit pouze
vybraný typ oblastí, a také v malém okně informovat o aktuální pozici kurzoru.
To může výrazně zpřesnit výběr oblastí a k přesnější práci přispějí jistě i 4
stupně zvětšení obrazu předlohy. Buď lze vyplnit celou dostupnou plochu
pracovní části okna, nebo zobrazit předlohu v její aktuální velikosti, případně
jejím dvojnásobku či polovině. Ve všech režimech je samozřejmě možné plně
pracovat se všemi oblastmi, upravovat je nebo vytvářet nové. Mezi základní
nastavované parametry patří i volba, zda předloha je tvořena proporcionálním
nebo fixním fontem, zda jde o "normální" nebo "malé" písmo a konečně, jestli
znaky byly tvořeny maticově nebo "normálně". To má velký význam při zpracování
textů z jehličkových tiskáren, čehož je důkazem i hodnocení praktického testu.
Před spuštěním vlastního zpracování textu je nutné ale nastavit nebo ověřit i
některé další pracovní parametry. Tak především je to použitý jazyk textu
předlohy. Jak předpokládá test, nechybí v nabídce ani čeština, avšak kromě ní
lze nalézt dalších 29 evropských i neevropských jazyků a celkem překvapivě je
zde možné objevit i volbu číslice. Druhým důležitým parametrem je volba formátu
výstupního textu. Zde ReadIris nezaostává za svými konkurenty a kromě textových
souborů v kódování ASCII a ANSII, nabízí formát RTF, dále pro WordPerfect, MS
Word, WordStar 2000, DisplayWrite, MultiMate, WordStar, textový soubor pro
Excel a dokonce i formát tabulky pro tentýž produkt. Navíc je možné jako výstup
zvolit schránku neboli "clipboard", odkud pak lze výstup pohodlně kopírovat do
libovolné aplikace. Rovněž při volbě výstupního formátu je možné zajistit i
dodržování odstavců ve výsledném textu a dokonce i jejich odsazování.
Posledním možným krokem před převodem je ještě aktivace tzv. "Učení". Pokud
tato služba pracuje, pak během převodu textu zastavuje procesor na nejasných
znacích a žádá si jejich potvrzení nebo opravu odhadnutého výsledku (obr. 11).
I při velice nedobré předloze se tak výrazně eliminuje počet chyb a zvyšuje se
úspěšnost. Jinak je průběh zpracovávání zcela automatický a uživatel je až na
samém závěru pouze upozorněn na umístění a název výsledného souboru a není mu
poskytnuta možnost editace výstupu přímo v prostředí programu nebo možnost
ovlivnit umístění výstupu na poslední chvíli. Což bohužel může způsobit
problém, neboť když při práci na více dokumentech zapomene měnit název souboru,
není jako v jednom z předchozích případů připisováno na konec. Původní obsah je
naopak vždy nahrazen novým a to po zpracování mnoha samostatných textů může
vyvolat jistou nevoli.
Při hodnocení výsledků praktického testu je třeba upozornit, že jako jediný z
"malých" produktů OCR se dokázal ReadIris vyrovnat i s textem pocházejícím z
jehličkové tiskárny. Při prvním pokusném zpracování dopadl sice naprosto stejně
jako 2 předchůdci, ale volbou maticového fontu se situace zcela změnila.
Výsledkem toho je celkem dobrá přesnost v rozpoznávání takovéhoto textu a ani
rychlost zpracování není k zahození. Jediný problém byl při automatickém
označení oblasti, kde byl každý z řádků analyzován jako samostatný objekt.
Naprosto bezkonkurenční výsledek pak byl dosažen u výstupu z laserové tiskárny,
kde bylo na testovací předloze správně rozluštěno každé jedno písmeno. V
případě obchodního dopisu bylo rovněž potřebné zasáhnout do automatické analýzy
oblastí, neboť část byla detekována jako sloupcový text, avšak po úpravě již
výsledek vykazoval velmi dobrou přesnost v rozlišování. Téměř bezchybné pak
bylo zpracování oblastí u knižního textu a výsledek se blíží výbornému
hodnocení. Velice podobně na tom je i hodnocení zpracování novinového textu.
Tentokrát si program s analýzou poradil zcela bezchybně. Testovací tabulku se
program snažil zpracovat ve formě sloupcového textu, což není zřejmě nejlepší
volbou. Bohužel i rozlišování znaků zde dopadlo velice špatně a odhaleno bylo
pouze 8 písmen. Ani při zpracování faxu standardní kvality nevyšly u tohoto
produktu výsledky nejlépe a rozpoznal o něco více než třetinu textu. Ale již
velmi dobrých výsledků dosahoval stejně jako předchozí produkt u faxu v jemné
kvalitě.
Časy i výsledky, které jsou uvedeny v doprovodné tabulce, odpovídají
rozlišování bez výuky a stejně tak i počet uhodnutých znaků. Při využití výuky
sice úspěšnost stoupala, ale nebylo potom možné dosáhnout srovnání se
zbývajícími účastníky.
8 1742 / ram

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.