Člověk versus počítač aneb výsledky efektivity skenování textu OCR

Sdílet

Spousta intelektuálů dnes buší do klávesnice počítače závratnou rychlostí kolem 100 úhozů za minutu jen proto,


Spousta intelektuálů dnes buší do klávesnice počítače závratnou rychlostí kolem 100 úhozů za minutu jen proto, že neprošli ekonomickým školstvím, které dříve jako jediné klávesnicové gramotnosti vyučovalo. Na policii jsou lidé zdržováni zbytečně dlouho jen proto, že naťukání protokolu probíhá mnohonásobně déle, než by bylo při klávesnicové gramotnosti nezbytné. Možná je to "štěstím" i pro soudnictví, jehož kapacita je do značné míry limitována kvalitou zapisovatelů.
Moderní pražská Euroškola (jejíž studenti procházejí individuální programovanou výukou psaní na počítači ZAV v návaznosti na uživatelské aplikace) se 19. ledna 1999 stala dějištěm celostátní soutěže, při níž zpracování textů v oblasti opisu testovali lidé klávesnicově různě gramotní -- od mistryně světa až po typického kancelářského rutinéra systému "všema dvěma" -- ale také skenery a počítače s OCR.
Soutěž, kterou zaštiťovala redakce PC WORLDu, společnost Interinfo ČR a již zmíněná Euroškola, měla objektivně zjistit hranice výhodnosti obou typů přepisování textů.

Technika

Soutěže se zúčastnily dva počítače s různými skenery a druhy OCR programů. Skener označovaný číslem 1 je He wlett-Packard ScanJet 4S, s nímž spolupracoval program Recognita 4.0, která je v prodeji za 30 tisíc Kč. Druhou, nižší kategorii zastoupil levnější skener Microtek Phantom 336cx (2 500 Kč) a s ním dodávaný programem Recognita 3.2 (v ceně).
Obě sestavy obsluhovali studenti MFF UK Jindřich a Přemysl Kolorenčovi, tedy uživatelé počítačově gramotní, avšak bez jakékoliv předběžné přípravy na práci s programem a na korekturu textů.

Lidé

Nejvýkonnější lidské písařské kvality představovaly tři reprezentantky úspěšného družstva ČR z posledního světového šampionátu (Lausanne 1998): dvojnásobná mistryně světa Helena Matoušková z Kladna (její rychlost psaní asi 800 úhozů/min.), juniorská mistryně Evropy, studentka pražské VŠE Zdeňka Kundrátková a juniorská reprezentantka ČR, studentka ISŠ Zlín, Eliška Klimková. Úlohy "kancelářského rutinéra" se laskavě ujal redaktor PC WORLDu Jan Lipšanský (bez speciálních kursů). Posledním soutěžícím byl student hostitelské Euroškoly Petr Žák (jeho rychlost se pohybovala kolem 250 úhozů/min.).
Toto družstvo připravil Jaroslav Zaviačič (sám vicemistr světa ještě v psaní na stroji v letech 1965 a 67), jenž se podílel i na přípravě soutěže a předloh.

Kategorie

Ve snaze přiblížit se všem myslitelným možnostem a okolnostem, které by se mohly během přepisování textu přihodit, připravili organizátoři soutěže osm různých předloh. Prvních sedm textů mělo rozsah jedné normostrany, tj. 1 800 úhozů. Poslední kolo bylo pojato jako jedna z obvyklých kategorií na mistrovstvích v psaní na klávesnici -- třicetiminutový přepis textu.
Jednotlivá kola byla pojata jako simulace různých podmínek: od ideálních (kvalitní papír a tisk), přes kvalitní s různým počtem chyb (poškození papírů, textu), až po mechanický psací stroj s korekturami a faxový dokument.

Výsledky

Jak vidno z přiložených grafů, vliv na výsledky skenerů neměla jenom daná předloha, ale její kvalita a zejména kvalita softwaru. Podle očekávání u kvalitních předloh suveréně zvítězily oba dva skenery, i když mistryně světa Helena Matoušková svým vyrovnaným výkonem nebyla daleko od výsledku druhého skeneru. Nekvalitní tisk, jaký poskytuje mechanický psací stroj, je podle dosavadních zkušeností nepřeveditelný -- kvalita lidského oka je nesrovnatelně vyšší, takže technika v tomto kole zůstala na posledních místech.
Nejen program, ale i obsluha se v průběhu soutěže vylepšovala. Text, ve kterém je takřka jedna třetina psána ručně, je pro skenery naprosto nepoužitelný. Křivka scanneru č.2 se dokonce dostala mimo rozsah grafu, a to i z toho důvodu, že obsluha raději rezignovala na komplikovanost oprav a text ručně přepsala.
Návrat na " hrací pole" v další disciplíně jasně signalizuje poměrně menší počet korektur v textu. Naskenování faxu nebylo proti očekávání příliš vyrovnanou disciplínou -- texty se tedy musely konvertovat do MS Wordu a upravovat až do žádané podoby.
Z počtu úhozů za půlhodiny byl vypočítán čas, kterého by bylo potřeba k napsání jedné normostrany. Ukázalo se, že i přes relativně velký počet chyb, k¦nimž došlo u skeneru č. 2, se umístění nezměnilo -- technika s její neodmyslitelnou obsluhou podala přesvědčivý důkaz o smysluplnosti svého využití.
Vyhodnocen byl i počet chyb v jednotlivých textech. Považuji za důležité upozornit na vyrovnanou kondici mistryně světa Heleny Matouškové, jejíž průměr se pohyboval pod jednou chybou na stranu. Průměrnou penalizaci za jednu chybu jsme určili na dvě sekundy, což je průměrný čas potřebné korektury.

Závěr

O smysluplnosti učení se psaní na klávesnici v dnešní době nemůže být pochyb. Většina z těch, kdo chvílemi věřili na bezstarostnou budoucnost s hlasovým ovládáním počítačů a hlasovým záznamem dat, se přesvědčila o tom, že reálné využívání těchto technologií je dosud daleko (zvláště v češtině).
Dostat se k rychlosti, která odpovídá asi 250 úhozům za minutu (srovnej se soutěžícím číslo 4), znamená asi dvouměsíční pravidelnou přípravu a zanedbatelnou investici do výukového programu. Jak vidno z výsledků, tak se člověk, který obětoval učení minimum ze svého času, ve většině případů rychlostí a kvalitou přiblíží skeneru s OCR nižší kategorie. Nižším skenerům se také přiblížil náš redaktor, jeho kapacita však byla vyčerpána; psaním dvěma prsty nedosáhne vyšší rychlosti (jestli jsem dobře slyšel, tak od tohoto týdne začal s intenzivní přípravou psaní všemi deseti).
Na druhou stranu -- jak jednoznačně dokázala naše měření -- jsou skenery velmi užitečnou pomůckou tam, kde se převádí velké množství textu, který je kvalitně vytištěn. Písař se na rozdíl od stroje unaví a dělá pak větší množství chyb. Skener se nauč í a ujasní si nepřesnosti, a ve svém důsledku může být v převádění textu až dvakrát rychlejší než nejrychlejší žena na světě. Tak pěkného výsledku však lze dosáhnout pouze za té podmínky, že obětujete cca 30 000 Kč na OCR software schopný učení.



Nasazení techniky je pro modernizaci celé společnosti nezbytné. Při opisu tištěných textů (např. při reedicích knih) je asi namístě využít skenerů, umožňujících text vzápětí editovat -- jakmile ale (zvláště český) text obsahuje větší množství úprav, gramatických či stylistických nedostatků nebo je na nekvalitním papíře, pak se vyplatí současně s těmito úpravami zapojit i klávesnicovou gramotnost.