UMAX Astra 610S a Readiris - levný skener a české OCR

1. 6. 1998

Sdílet

Není to tak dávno, kdy se ceny nejlevnějších barevných plochých skenerů pohybovaly vysoko nad hranicí 10 tisíc k...


Není to tak dávno, kdy se ceny nejlevnějších barevných plochých
skenerů pohybovaly vysoko nad hranicí 10 tisíc korun a o českém
OCR se mohlo uživatelům Maců jen zdát. Nyní je na našem trhu
dostupný levný skener i české OCR, které zpříjemní život mnoha
kancelářím případně domácnostem používajícím Macy. Barevný
skener UMAX Astra 610S přináší příjemný posun zvláště v cenové
oblasti a Readiris 3.9 je konečně OCR pro Macy zvládající práci
s češtinou, slovenštinou a dalšími "méně rozšířenými" jazyky.

UMAX Astra 610S

Skener Astra 610S nahrazuje dosud nejlevnější skener od UMAXu,
Astru 600. Při zachování základních vlastností došlo k dalšímu
poklesu ceny, takže ploché skenery se zase stávají o krůček
dostupnějšími.
Astra 610S je určena především do kanceláří a domácností,
čemuž odpovídají i její vlastnosti. Výborná je pro snímání
obrázků určených pro elektronické použití, ať už v multimédiích
nebo třeba na webových stránkách. Hodí se také pro načítání
dokumentů, které lze dále rozesílat prostřednictvím faxmodemu
nebo elektronické pošty, a sloužit může samozřejmě i jako vstupní
zařízení domácí kopírky.

Technické parametry

Základní technické parametry nové Astry 610S jsou shodné s jejím
předchůdcem Astrou 600. Opět se jedná o plochý jednoprůchodový
skener, snímající s optickým rozlišením 300 x 600 dpi. Maximální
rozlišení je sice uváděno 4 800 x 4 800 dpi, ale protože se jedná
o rozlišení interpolované, tj. dopočítané a ne přímo snímané,
neočekávejte větší ostrost obrázků při použití rozlišení vyšších,
než je optické. Astra 610S je skener barevný, interně pracující
s 30bitovou barevnou hloubkou (miliony barev), resp. 10bitovou
hloubkou při snímání šedivých obrázků. Samozřejmě je možné
nastavit i 1bitovou hloubku pro snímání černobílých obrázků,
vhodných pro následné použití OCR (viz dále). Maximální velikost
snímatelné plochy je 216 x 297 mm, což je o něco málo více než je
běžná velikost A4. Rychlost snímání 9 ms/řádek barevně, resp. 3
ms/řádek šedivě většině uživatelů asi mnoho neřekne, pro
názornější údaje se proto podívejte do přiložené tabulky (obrázek
2).
K výrazným změnám došlo v oblasti designu. Skener je téměř
o polovinu lehčí, váží něco málo přes 3 kg, a také v rozměrech
znatelně ubral (295 x 100 x 420 mm), takže na stole nezabírá
tolik místa. Právě malé rozměry a nízká hmotnost byly první věcí,
která mne na tomto skeneru zaujala.
Oproti "šestistovce" chybí jediná vlastnost, a to možnost
odstranit kryt a nahradit ho speciálním nástavcem pro snímání
transparentních předloh. Osobně si myslím, že v tomto směru
uživatel o nic podstatného nepřichází. Transparentní fólie lze
snímat i nadále, a pro snímání filmů stejně není optické rozlišení
dostačující. Navíc snímání filmů asi nebude v kancelářích ani
domácnostech představovat jádro práce se skenerem.
Na druhou stranu přichází Astra 610S s drobností, která musí
technicky méně zdatné uživatele uchvátit. Na přední straně
skeneru totiž najdete jediné tlačítko Scan (vypínač je vzadu),
jehož stisknutím se spustí celý proces skenování. Žádné hledání
speciální skenovací aplikace na pevném disku, prostě jen
stisknete tlačítko podobně jako na kopírce.
Písmeno S v názvu skeneru znamená SCSI verzi (pro PC
existuje i paralelní a USB verze) a Astra 610S se tedy k počítači
připojuje pomocí standardního SCSI II rozhraní. Na skeneru jsou
dva 25pinové konektory, takže skener může být zapojen kdekoliv
v SCSI řetězci. Na zadní straně je také otočný přepínač SCSI ID
v plném rozsahu, i když jeho nastavení je trochu náročnější na
použitý nástroj (prstem ani tužkou ho nenastavíte). Součástí
dodávky je SCSI kabel a externí terminace. Připojení ke stolnímu
Macu proběhlo bez problémů, i když byla v SCSI řetězci zapojena
další zařízení, komplikace ale nastaly při připojování
k PowerBooku. Připojit samostatný skener k PowerBooku, ať už
s dodávanou terminací nebo bez ní, se mi ani po řadě pokusů
nepodařilo. Řešením se ukázalo až použití ZIPu se zapnutou
terminací na konci řetězce, takže problém může být v dodávané
terminaci, která není pro PowerBooky vhodná.

Software

Skenery v kategorii, do které patří i Astra 610S, bývají
vybavovány množstvím softwaru, aby uživatelé ihned po zakoupení
mohli začít naplno využívat jejich schopnosti. Také s Astrou
610S dostanete řadu programů, počínaje ovládacím softwarem přes
různé katalogizační aplikace a software pro úpravy obrázků až
třeba po kopírku.
Jak již bylo zmíněno v úvodu, nejsnadnějším způsobem, jak
dostat obrázek do počítače, je stisknout tlačítko Scan přímo na
skeneru. Tím se aktivuje aplikace Presto! PageManager (obrázek
3), což je jakési skenovací centrum, kde se shromažďují
naskenované dokumenty. Dokumenty zde lze zobrazovat, ukládat na
disk ve zvoleném formátu, případně je pomocí OCR (ovšem bez
češtiny) převádět do textové podoby. Naskenované obrázky je odtud
také možné přenést do dalších aplikací.
Druhým způsobem skenování je použití pomůcky VistaScan DA,
která slouží pouze pro skenování dokumentů a jejich ukládání na
disk ve zvoleném formátu (Photoshop, TIFF a PICT). Třetí možností
je potom použití zásuvných modulů VistaScan přímo v grafických
aplikacích typu Photoshop, což umožňuje skenovat obrázky rovnou
do daného programu. Takto lze obrázky skenovat i do dodávané
aplikace Presto! ImageFolio (obrázek 4), jejíž součástí je také
katalogový program ImageFolio Browser. Se skenerem je dodáván
i známý software Adobe PhotoDeluxe, který bývá častým doplňkem
digitálních fotoaparátů. PhotoDeluxe je program pro zpracování
obrázků, uzpůsobený pro laické uživatele. S jeho pomocí můžete
upravovat fotografie, vytvářet různé koláže, přání nebo třeba
kalendáře. Další zajímavou aplikací je Copier, přeměňující skener
ve spojení s tiskárnou na kopírku. Základní okno této aplikace je
graficky vyvedeno jako ovládací panel běžné kopírky (obrázek 5),
takže bude všem uživatelům připadat důvěrně známé.
Jádrem skenování je ve všech popisovaných aplikacích
ovládací software VistaScan (obrázek 6). Po jeho aktivaci se
zobrazí náhled skenovaného dokumentu, ze kterého lze vyříznout
požadovanou část. Bohužel není možné označit několik částí
najednou. Nastavují se zde veškeré parametry skenování
(barevnost, rozlišení apod.) a je také možné zapnout MagicMatch,
což je software pro synchronizaci barev. Užitečná je možnost
určit typ předlohy (reprodukce, časopis, noviny), skener je potom
docela slušně schopen odstranit moaré (efekt, kdy se
"jednobarevná" plocha naskenuje jako barevný vzorek).
Kromě základního modulu VistaScan je k dispozici také modul
VistaScan Auto, jenž provede kompletní skenování bez zásahu
uživatele, tj. po načtení náhledu vyřízne část obsahující
obrázek, výřez případně otočí a obrázek naskenuje. Tento modul je
vhodný pro uživatele, kteří se nechtějí trápit nastavováním
parametrů a potřebují dostat obrázek do počítače co nejjednodušší
cestou.
Astra 610S dále nabízí zajímavou možnost vzdáleného skenování, tj. použití skeneru připojeného k jinému počítači v rámci sítě AppleTalk. Tato vlastnost je vhodná zvláště pro kancelářská pracoviště, kde může jeden skener používat více uživatelů přímo ze svých počítačů. Bohužel při testu v síti LocalTalk (dva Macy spojené sériovým kabelem) se vzdálené skenování nepodařilo realizovat.

OCR Readiris 3.9

OCR (Optical Character Recognition) software představuje
užitečný kancelářský nástroj právě ve spojení se skenery. Jeho
základním úkolem je totiž převádět dokumenty nasnímané jako
obrázek do textové podoby, kterou lze dále upravovat běžnými
textovými editory. Rostoucí výkon počítačů přinesl tuto
technologii z roviny snů do prakticky využitelného nástroje.
Příznivci Maců u nás se ale dosud museli smířit s tím, že OCR je
dostupné pouze pro rozšířené jazyky, mezi nimiž dominuje
angličtina, ale dlouhou dobu chyběla čeština i slovenština.
Prvním náznakem obratu k lepšímu bylo uvedení tužkového
skeneru IrisPen, schopného číst české texty, i když jen po
jednotlivých řádcích. Od téže firmy IRIS pochází také produkt
Readiris pro celostránkové rozpoznávání textu, které nyní pracuje
i s češtinou, slovenštinou a celou řadou dalších jazyků včetně
ruštiny nebo třeba řečtiny.

Použitelnost

Myšlenka OCR je nepochybně hezká, na bezchybné OCR, schopné
přečíst to samé co člověk, si ale ještě budeme muset nějakou dobu
počkat. Z tohoto pohledu je třeba vycházet i při hodnocení kvalit
Readirisu 3.9.
Rozpoznávání textu v Readiris pracuje ve dvou krocích:
nejprve je stránka rozdělena do samostatných oblastí -- zde se
nazývají okna -- a je určeno pořadí těchto oblastí. Tímto způsobem
lze převádět i strukturované dokumenty, skládající se například
z několika sloupců. Readiris si v tomto směru vede poměrně dobře
a v převážné většině případů rozdělí stránku tak, jak je
očekáváno. Výjimkou je práce s dokumenty skenovanými z novin, kde
jsou jednotlivé bloky těsně u sebe, a Readiris nebyl schopen je
rozlišit. V takovém případě lze provést rozdělení oken ručně.
Druhá fáze již zahrnuje vlastní rozpoznávání textu. Hodnotit
jeho kvalitu je ošidné, protože závisí na mnoha faktorech,
především pak na kvalitě naskenovaného dokumentu. Readiris si
vede poměrně dobře, ale ke 100% správnosti se zdaleka neblíží,
a to ani v případě jasně naskenovaných dokumentů. Kvalita je
výrazně nejhorší u novin, kde je množství chyb neúnosně vysoké,
naopak skenování například z knih dávalo poměrně slušné výsledky,
protože text je v celém dokumentu psán stejným písmem
a velikostí. Autoři programu uvádějí, že software používá
lingvistickou analýzu zvyšující správnost rozpoznávání. To zní
sice vznešeně, ale proč se software neřídí i nějakými
jednoduchými pravidly, která třeba říkají, že uprostřed slova
zpravidla nebývá velké písmeno (doByvatel) a že slova většinou
neobsahují zároveň písmena a čísla (lovec vs. 10vec). Velké
procento chyb je také způsobeno špatnou interpretací mezery, kdy
jsou mezery často vypouštěny a slova splývají, nebo jsou naopak
mezery přidány.
Readiris je schopen se v průběhu rozpoznávání učit
a zdokonalovat, jak ale každý ví, kvalita výuky nemalou měrou
záleží na učiteli a tím je v případě Readiris běžný uživatel.
Osobně jsem při testu nezaznamenal po výuce nějakou výraznou
změnu kvality rozpoznávání.
Readiris je schopen převést stránku A4 do textové podoby za
zhruba minutu, další čas je potřeba věnovat na přečtení textu
a opravení chyb. V řadě případů je to stále rychlejší než ruční
opisování, ale jak již bylo řečeno, důležité je "čisté"
naskenování.

Uživatelské rozhraní

Readiris působí poměrně skromným dojmem a jeho uživatelské
rozhraní je jednoduché, možná až příliš. Dokument můžete do
programu načítat přímo ze skeneru (bohužel spojení s Astrou 610S
nefungovalo) nebo lze použít grafický soubor (formáty PICT
a TIFF).
Na zvláštnosti nastavení programu je třeba si zvyknout.
Změna pořadí oken v dokumentu není například úplně snadná
a bohužel nefungovalo ani zvětšení dokumentu, které by se hodilo
při ručním nastavování oken. Dost také vadilo, že si software
nepamatuje poslední nastavení, takže například rozpoznávaný jazyk
je třeba znova a znova nastavovat po každém spuštění programu
(standardně je zvolena angličtina).
Readiris 3.9 je první vlaštovkou na poli macovského OCR,
schopnou rozpoznávat snad všechny evropské jazyky. Při jeho
praktickém využití ale nesmíte zapomínat na možnosti a omezení
dnešního OCR.

Skener Astra 610S pro test zapůjčila firma ConQuest computer,
Nuselská 46, 140 00 Praha 4

Cena: 7 190 Kč (bez DPH)

Software ReadIris pro test zapůjčila firma 5P, s.r.o., Binarova
1661, 182 00 Praha 8

Cena: 14 500 Kč (bez DPH), konkurenční upgrade z libovolného OCR
6 950 Kč (bez DPH)