S tímto programem nevšedních možností, jenž slouží k optickému rozpoznávání
znaků a jejich převodu do dále použitelné textové formy, jste se již setkali
jak na našich stránkách, tak na CD ve formě ukázkové verze. Protože ukrajinský
vývojářský tým postupuje mílovými kroky vpřed, pojďme se seznámit s aktuálními
možnostmi.
Na každý stůl
Doby, kdy systémy OCR představovaly nákladnou záležitost a výsledky jejich
práce byly spíše experimentálního rázu, jsou naštěstí pryč. V současnosti není
kvalitní rozpoznávací program rozmařilostí, ale dostupným softwarovým vybavením
kanceláře. Nemálo tomu přispěla i společnost ABBYY, jejíž produkty představují
momentálně špičku v oblasti řešení jak pro koncové uživatele, tak pro náročné,
hromadné zpracování dat.
Aktuální verze 6.0 je dodávána ve dvou provedeních: edice Professional je
vhodná pro nasazení na jednotlivé PC, a Corporate Edition přidává další
funkcionalitu pro práci v síťovém prostředí (např. sdílení dat či dávkové
zpracování). My jsme vyzkoušeli první zmíněnou variantu.
Co je nového?
Při tvorbě "šestky" zapracovali programátoři na několika frontách najednou.
Následující odstavec není zdaleka vyčerpávajícím výčtem, ale spíše upozorněním
na vlastnosti, jež nám připadaly z nějakého důvodu zajímavé. Na prvním místě je
třeba zmínit dopracovanou kompatibilitu s Windows 2000 a Windows XP, což byl
ovšem krok nutný. Naopak rozšíření nabídky exportních formátů o PDF je velmi
lákavé a užitečné, neboť tento typ dokumentu představuje dnes de facto
standard. Když jsme u výstupu do souboru, dodejme, že se podstatně zlepšila též
schopnost např. do Wordu přenést i naskenované obrázky jako odpovídající
objekty na stránce. Mezi velmi zdařilou patří také technologie filtrování
nečistého či barevného podkladu, jenž silně ruší načítání vlastního textu.
A co jsme zjistili?
Veškerou práci s programem jsme prováděli ve Windows 2000, přičemž podklady
byly připraveny ve formě zdrojových souborů, neboť jsme skeny prováděli na
jiném počítači. Jak následně bude uvedeno, vyzkoušeli jsme řadu zdrojových
materiálů: okopírovanou stránku z časopisu, laserovou tiskárnou vytištěný text
s ručními korekturami, originální stránku z PC WORLDu (s výraznými barevnými
obrázky) či propagační leták s velkými barevnými plochami. Při práci bylo
použito defaultní nastavení, žádné pokročilé volby jsme neaktivovali. S jejich
použitím se samozřejmě výsledek bude dále zlepšovat.
Přenos grafických dat byl realizován pomocí formátu JPG (barevné) a BMP
(černobílé). S TIFem by program neměl mít dle dokumentace potíže, ale
nepochopitelně se k němu nechtěl znát.
- laserový tisk, rukou vepsané korektury, ČB sken, 600 dpi. Výstupem byl v
podstatě identický dokument, tedy alespoň v místech, kde nezasáhla korektorská
tužka. Větší ruční poznámky na okraji byly zařazeny jako obrázek, menší byly
chybně interpretovány zde však nikdo nečekal úspěch. Pokud je zdrojem laserový
tisk, program nechybuje.
- kopie časopisu, ČB sken, 600 dpi. Přestože obraz prošel dvojí digitalizací
(nekvalitní kopírka, poté teprve sken), výsledek byl překvapivě dobrý. Veškerý
text byl rozpoznán správně a v MS Wordu byly dobře zalomeny sloupce, vloženy
obrázky i zvětšeny nadpisy na potřebný font. Výsledek byl ihned použitelný,
přestože samotný zdrojový výtisk byl dosti umazaný od toneru a obsahoval
nežádoucí pruhy od hřbetu a růžků stránek. "Čistící" funkce Fine Readeru
zapracovala perfektně.
- stránka PC WORLDu, True Color sken, 300 dpi. Jednalo se asi o nejobtížnější
předlohu ze všech. S fontem o velikosti cca 8,5 bodu na silně zabarveném
podtisku měl program místy potíže, avšak téměř vždy se to týkalo řádků v
kurzívě. Hůře dopadly obrázky některé byly opomenuty a do výsledného DOC
souboru se nedostaly. Proporce mezi odstavci a obtékání vložených objektů však
bylo velmi dobře zachováno.
- barevný leták, True Color sken, 300 dpi. I v tomto případě si program poradil
velmi dobře. Silné barevné plochy byly s úspěchem odfiltrovány a v textu
prakticky nebyly chyby, pokud velikost znaků neklesla pod cca 2 mm. Při
kombinaci menšího písma a tmavě zeleného podkladu jsme zaznamenali zhruba 20%
chybovost. Při uložení do MS Wordu bylo přesně zachováno rozložení prvků
stránky, poměr ve velikosti fontů nadpisů či umístění loga (viz obr.). Dokument
byl po krátké korektuře použitelný.
Hodnocení
Mezi obrovské výhody patří perfektní uživatelské rozhraní. U ABBYY považují
lokalizaci do všemožných jazyků za samozřejmost, takže ovládání je v češtině.
Další příjemné překvapení nastalo při ukládání rozpoznaného textu kromě formátu
DOC fungoval velmi dobře i výstup do PDF, a také do StarWriteru (OpenOffice).
Sice zde vypadlo zarovnání do sloupců, ale obrázky i nadpisy byly v pořádku.
Pokud potřebujete kancelářský OCR program, neváhejte ani minutu. Za uvedenou
cenu jiné takhle dobré řešení neseženete. ABBYY Software House rozhodně umí!
Fine Reader 6.0
rozpoznávací schopnost
odstranění podkladu
vlastní kontrola gramatiky
uživatelské rozhraní
výsledek výstupu do souborů
K recenzi poskytla firma: Nupseso CZ, Politických vězňů 14, 110 00 Praha 1,
http://www.nupseso.cz
Cena: Professional 4 990 Kč,
Corporate Edition 11 900 Kč (obě ceny bez DPH)