Automatizované rešerše textů

1. 3. 1998

Sdílet

Realisticky hodnoceno, dnešní počítače se v běžném kancelářském použití příliš neliší od lepšího psac


Realisticky hodnoceno, dnešní počítače se v běžném kancelářském
použití příliš neliší od lepšího psacího stroje, možná
dovybaveného faxem či dálnopisem. Při podstatně vyšší ceně
nabízejí vyšší rychlost a možnost snadných korekcí chyb, jejich
intenzivnější a inteligentnější využívání je ale spíše výjimkou.

Možnost plného využití rychlosti dnešní osobních počítačů a již
léta na univerzitách vyvíjených algoritmů umělých inteligencí
ukazuje například program Data Hammer firmy Glucose Development
Corp. Jeho hlavním úkolem je zpracovávání textů a generování
jejich abstraktů či shrnutí jejich obsahu.

Na přiloženém obrázku je vidět pracovní okno aplikace, kde po
vložení textu a stisknutí tlačítka "Summarize" již proběhlo
zpracování textu. Jde mimochodem o novinku uveřejněnou v PC
WORLDu XX/97, věnovanou nové SCSI kartě firmy Adaptec, a čtenář
si tedy snadno může porovnat kvalitu výsledného abstraktu z
původního textu. Modře označená slova jsou přitom ta, která
použitý algoritmus vyhodnotil jako klíčová. Vpravo nahoře
umístěný posuvný jezdec mimochodem umožňuje plynule měnit
velikost či podrobnost shrnutí.

Data Hammer také zobrazuje grafy s informacemi o oblastech s
největší informační hustotou a další podrobné informace o
struktuře textu. Zpracování je postaveno na firemním Microword
Tree Trimming (MTT) algoritmu, o jehož principech nejsou
dostupné žádné podrobnosti, nicméně který podle testů patří k
těm nejrychlejším a nejefektivnějším.

Při plánované úvodní ceně cca 50 dolarů je program určen pro
koncové uživatele, kteří pracují s velkým množstvím textových
nebo WWW dokumentů, jejichž obsah musí nějakým způsobem využít.
V době uzávěrky časopisu byl pouze ve formě beta-verze pro
platformu Mac OS. Již ta ale rozpoznává a je schopna analyzovat
cca 12 světových jazyků, včetně češtiny (jak demonstruje samotný
obrázek). Prostřednictvím vyplnění speciálních "předloh",
obsahujících podrobný popis větné a informační skladby, není
problémem schopnosti programu rozšířit o další jazyky či nářečí.

Podobné programy představují novou generaci počítačového
softwaru a zatím se bohužel objevují jen pomalu. Takovéto
inteligentní funkce pro tzv. data mining (doslova dolování dat)
obsahují některé high-endové databáze a např. firma Apple je ve
formě své technologie kódově označované jako V-Twin (nověji
Apple Information Access Toolkit) chce zavést jako systémovou
funkci Mac OS.

Autor článku