MorfixPDF: Cesta do hlubin dokumentů

Přestože práce s dokumenty formátu PDF je v současné době naprostou samozřejmostí, rozhodně nelze říci, že jeho m...


Přestože práce s dokumenty formátu PDF je v současné době naprostou
samozřejmostí, rozhodně nelze říci, že jeho možnosti byly vyčerpány. Tvůrce
této úspěšné technologie firma Adobe Systems se zejména orientuje na grafickou
reprezentaci a ochranu dokumentů, a nechává tak prostor pro další vývojáře,
jejichž týmy možnosti PDF rozšiřují. Touto cestou se vydala i slovenská
společnost Forma, jež vyvíjí technologii MorfixPDF, která je určena pro
indexování textů a následné rychlé vyhledávání v PDF dokumentech.
V případě MorfixPDF se v zásadě jedná o tvorbu optimalizovaných indexů pro
fulltextové vyhledávání, jež posléze můžete distribuovat spolu se soubory, a
umožnit tak jejich využití při vyhledávání. Důležitými se tedy stávají
vlastnosti jako rychlost či schopnost rozpoznávat zapeklitosti různých jazyků,
a právě tímto směrem se MorfixPDF ubírá.

S Acrobatem po boku
Aplikace je navržena jako modul pro Adobe Acrobat (pochopitelně "plný", ne
pouhý prohlížeč), bez jeho přítomnosti tedy MorfixPDF nenainstalujete. Po
zavedení je program reprezentován vlastním nenápadným menu, jež však ukrývá
mocné funkce. Logickým základem celého procesu je sestavení rejstříku z
existujících dokumentů. Příjemné je, že při prvotní tvorbě máte možnost
definovat kolekci výchozích souborů rozložených v různých složkách, takže
operace probíhá dávkově. Další zajímavostí je fulltextová podpora řady jazyků,
mezi nimiž samozřejmě nechybí angličtina, čeština a slovenština. Při tvorbě
každého jednotlivého rejstříku sice nemůžete vybrat dva jazyky najednou, ale
nic vám nebrání vyrobit pro stejnou kolekci souborů více jednojazyčných indexů.
Velmi zajímavá a propracovaná funkce se ukrývá pod "zatržítkem" s názvem
Lematizovaný. Tato funkce je skrytou silou produktu, neboť dokáže na základě
výskytu různých tvarů slov v daném jazyce odvodit jejich kořen a použít jej
následně pro všechny další varianty výrazů. Škoda jen, že tato možnost byla v
době testování dostupná pouze v angličtině a slovenštině. Jednou sestavený
index není zdaleka definitivní strukturou. Kdykoliv v budoucnu jej můžete
rozšiřovat o další přiřazené soubory a následně jej generovat znovu s
rozšířenou slovní zásobou.
Dalším logickým krokem je distribuce sestavených struktur spolu se soubory. I v
tomto případě je operace jednoduchá, avšak je potřeba nezapomenout na důležitý
fakt: při tvorbě indexů si program pamatuje absolutní cesty, takže v rámci
distribuční přípravy musíte provést přemapování, jež tyto vazby promění do nové
podoby, dle budoucího uložení dokumentů relativně k poloze indexovacích souborů.

Účinné vyhledávání
Využití sestavených indexů má na starosti komponenta MorfixPDF Search, kterou
je možné instalovat nezávisle na další počítače a pochopitelně si rozumí i se
základním Acrobat Readerem. Z hlediska ceny celého řešení je klíčové, že
vyhledávač je licenčně označen za volně šiřitelný balík. Z pohledu praktického
pak nepřehlédněte, že jsou rozlišeny jednotlivé jazykové verze, jež jsou pro
odpovídající rejstříky nezbytné. Poměrně sofistikované možnosti prohledávání
zahrnují dohledání všech tvarů klíčového výrazu (lematizátor) či dohledání
synonym, ale také rozpoznávání diakritických chybiček. Samozřejmostí jsou
zástupné znaky a mezi logickými operátory najdete nejen ty běžné (AND, OR,
NOT), ale též pokročilejší NEAR (jak daleko od...) či NEXT (celá přesná fráze).
Před samotným hledáním je také možno říci, které z dodaných rejstříků hodláte
použít či ignorovat. Výsledky hledání mohou posloužit jako podklad pro
opakování téže procedury s novými podmínkami.
Přestože MorfixPDF prozatím existuje ve verzi 1.0, jeho poměrně dobrá
funkcionalita je příslibem do budoucna, stejně jako naznačený směr, jímž se
bude další vývoj ubírat. Doplnění modulů pro lematizaci dalších jazyků bude
dalším zásadním pokrokem a tvůrci se již teď nemají za co stydět. Za velmi
výhodné je možno označit licencování klientského vyhledávače, neboť u
srovnatelných řešení je často pravidlem, že tvůrce indexů musí zaplatit licenci
za každou klientskou stanici, na níž je následně výtvor používán.

MorfixPDF
+podpora více jazyků, modul pro lematizaci, rychlost, licencování klientů
-ne všechny jazyky kompletní, některá omezení ve velikosti souborů
Prodejce: Forma, www.forma.sk
Cena (bez DPH): 4 950 Sk (jednouživatelská verze)

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.