Vícejazykový systém pro OCR - Readiris pro 6 cz

Sdílet

V podtitulku uvedená zkratka OCR pochází ze sousloví Optical CharacterRecognition, v češtině pak optické rozpoznávání znaků. Jedná se o specializovaný software, který je schopen přev...
V podtitulku uvedená zkratka OCR pochází ze sousloví Optical Character
Recognition, v češtině pak optické rozpoznávání znaků. Jedná se o
specializovaný software, který je schopen převést informaci obrazovou na
znakovou pomocí důmyslného algoritmu. Lidově řečeno, vytáhne z naskenovaného
textu znaky a předá je případně ke zpracování běžnému textovému editoru. Ušetří
tedy spoustu času při přepisování textu do počítače.

Samozřejmě že to vypadá moc ideálně. Proto je třeba překonat několik zádrhelů.
Předně je potřeba mít zařízení, které převede předlohu do počítače, tedy nějaký
druh skeneru. Také na předlohu jsou kladeny určité požadavky. Například musí
být dobře čitelná. Všechno výše uvedené platí pro veškeré OCR programy. Dají se
vcelku dobře rozlišit podle toho, s jak nekvalitním textem se ještě dokáží
vypořádat.


Skenujeme a rozeznáváme

V případě, že vaše pracoviště ještě není skenerem vybaveno, měli byste si ho co
nejdříve pořídit. Hodí se totiž na spoustu věcí. Chcete-li ho používat jako
zdroj pro OCR, nejsou na něj kladeny žádné speciální nároky. Pro recenzovaný
software pak stačí být vybaven ještě nějakým rozumným PC, a lze začít pracovat.
Po bezproblémové instalaci a prvním spuštění se objeví průvodce nastavením
parametrů. Po jejich zadání už zbývá jen založit předlohu do skeneru a
stisknout tlačítko pro načtení předlohy. Program používá standardní TWAIN
rozhraní a skenování tedy probíhá obvyklým způsobem. Obecně lze také říct, že
není třeba skenovat text s příliš velkým rozlišením (stačí asi 300-400 dpi).
Jednak se tím redukuje velikost předlohy, jednak je vyšší rozlišení už
neefektivní. Ale zpátky k práci. Po naskenování textu následuje jeho rozdělení
na odstavce a jejich seřazení, jak jdou po sobě. Rozpoznávání textu se spustí
dalším tlačítkem. Rozpoznaný text pak ReadIRIS uloží jako dokument v textovém
editoru, přednastaven je MS Word 97/2000. Použití Wordu je výhodné i proto, že
ReadIRIS podporuje ukládání textu ve formátovaném tvaru. Je možno samozřejmě
nastavit ukládání i jako plain text, který formátování přirozeně ztrácí.


Zkušenosti

Již výše jsem naznačil, že hodně závisí na kvalitě předlohy. Při pokusu o
rozeznání tmavězeleného textu na tmavěmodrém pozadí činí potíže i člověku,
natož počítači. Nejlepších výsledků se podaří dosáhnout s černým textem na
bílém pozadí. Nejhorších naopak v případě spektrálně blízkých barev, jak jsem
již zmínil. V případě snímání barevného textu je třeba si vyhrát s nastavením
skeneru.

Při rozpoznávání je ReadIRIS čím dál tím lepší. Důvodem je jeho schopnost učit
se. Při prvním spuštění se objeví největší množství špatně určených znaků.
Vyplatí se ze začátku nechat program rozpoznávat v učicím modu. V případě
nejasnosti se zeptá na správnou interpretaci znaku a naučí se příslušnou
variantu daného písmene. Čím rozsáhlejší znalosti ReadIRIS získá, tím více se
snižuje počet chyb ve čteném textu. Po několika textech přečtených a
interaktivně opravovaných je úspěšnost skutečně vysoká a je pak možno učení
vypnout.

Jak je již řečeno výše, výstupy ReadIRISu se exportují přímo do MS Wordu
společně s formátováním, tzn. že rozpoznaný text zachovává odstavce, odrážky a
ostatní prvky. Navíc při skenování kompletní stránky i s grafikou je pak
obrázek vložen jako objekt do výsledného dokumentu na stejném místě jako v
předloze.

Zkušenosti jsem sbíral skenováním různých předloh od dokumentů, vytištěných
laserovou tiskárnou, po reklamní letáky nevysoké kvality (graficky a obsahově).
Pokud se jednalo o černobílé texty s ucházejícím tiskem, ReadIRIS byl takřka
stoprocentní. Zachoval formátování, a chyby byly zanedbatelné, jako třeba
nevynechání mezery mezi slovy. Se zhoršující se kvalitou předlohy klesala i
úspěšnost rozpoznání a ve zmíněném případě kombinace modrá-zelená byla
úspěšnost už mizivá. Je třeba dodat, že i já jsem měl problém rozluštit, co je
tam napsáno. Program umožňuje navíc obvyklé operace se zdrojovým obrázkem
otočit, zrcadlit nebo roztáhnout, což se občas hodí.


Hodnocení

ReadIRIS mě příjemně překvapil. Čtení černobílého textu je rychlé a
odpovídající předloze, což je přesně to, co bych od OCR softwaru očekával.
Navíc je dodáván v jedné verzi pro desítky jazykových mutací, mezi nimiž
nechybí čeština. Nevzniká tedy problém háčků a čárek. Zároveň lze několika
kliknutím i změnit rozpoznávání z češtiny třeba na ruštinu a nechat si přečíst
text psaný azbukou, což jsem také úspěšně odzkoušel. Kromě jiných znakových sad
zvládne program i různé druhy fontů.

Jestli se u vás přepisují z tištěných předloh do počítače kvanta textů, tak
ReadIRIS je řešením pro vás. Vražte těch pár korun do nějakého skeneru a pusťte
se do optického rozpoznávání znaků. Zejména je to vhodné pro ty, kteří nejsou
schopni během pracovní doby přepsat pětistránkovou dokumentaci. S dobře
vycvičeným ReadIRISem se časová náročnost tohoto úkonu výrazně sníží.




ReadIRIS PRO 6 CZ

schopnost učit se
úspěšnost rozpoznávání
množství podporovaných znakových sad

K recenzi poskytla firma: I.R.I.S. www.irislink.com
Distributor pro ČR: SWS, a. s.
Dostihová 1, 763 15 Slušovice
Cena: 16 421 Kč (bez DPH)