Integrujte agenta, Web, databázi a CD-ROM

V nedávno zveřejněném článku o vyhledávacích produktech a technologiích pro intranet jsme se soustředili na produkty...


V nedávno zveřejněném článku o vyhledávacích produktech a technologiích pro
intranet jsme se soustředili na produkty dodávané společně s webovými servery.
Dnes se zaměříme na řadu produktů postavených na technologii Verity.
Ve stále větším množství informací vzrůstala potřeba vyhledávat co nejvíce
efektivně, proto se v dnešních vyhledávacích nástrojích můžeme setkat např. s
jazykovou analýzou, automatickou kontrolou pravopisu, vektory apod. Produkty na
technologii Verity přitom dnes obsluhují v některých případech až miliony
dokumentů, ve kterých mohou miliony uživatelů Internetu vyhledávat. Takové
archivy má třeba IBM (2 500 000 dokumentů), Compaq, ale i např. Evropská unie
(cca 1 000 000 dokumentů).
Podívejme se nyní na několik příkladů vyhledávacích produktů, založených na
technologii Verity.
Indexování a třídění informací
Pro tento účel bychom mohli z Verity vybrat 2 hlavní aplikace. První z nich je
Verity Developers Kit (VDK). Ta dovoluje vývojářům navrhovat a vytvářet
vlastní aplikace, které pracují s nestrukturovanými daty, stejně tak, jako by
pracovali s běžnou databází (a tedy daty strukturovanými). Pro nalezení co
nejpřesnějších výsledků (třeba i z milionů dokumentů) obsahuje VDK i nástroj
pro automatické rozšíření dotazů pomocí lexikonů, či jazykového rozboru.
Samozřejmostí je také podpora funkcí, jako jsou booleanovské operátory,
operátory pro vzájemnou polohu nalezených slov, apod.
K rychlému nalezení výsledků také slouží funkce VDK, která se stará o
zařazování nestrukturovaných dat do tzv. "Verity Collection". Tyto kolekce pak
obsahují tři typy informací o každém zaindexovaném dokumentu fulltextový seznam
slov, metadata (např. z HTML) a pak již daná data (nebo jen URL). Dotaz je poté
směrován do těchto kolekcí nezávisle na tom, kde data jsou a v jakém jsou
formátu.
O otevřenosti tohoto systému hovoří také možnost využít podpory Unicode a
lokalizovat VDK téměř do jakéhokoliv jazyka, či možnost spustit ho na spoustě
různých platforem (Windows, Unixy v řadě variant atd.).
Další aplikací, spadající do této kategorie, je Verity Spider. Ta nabízí
nástroj pro hledání a indexování informací uložených prakticky kdekoliv a v
jakémkoliv formátu, ať už se jedná o interní webový server, souborový server,
externí internetové adresy nebo další zdroje informací. Tyto informace pak
indexuje do jednoho společného indexu a umožňuje v nich rychle a efektivně
vyhledávat.
I v tomto produktu najdeme spoustu dalších užitečných funkcí. Společně s
inkrementálním indexováním je možné Spidera nastavit tak, aby prohledával
určité zdroje informací a indexoval nové nebo změněné soubory, bez neustálého
přeindexovávání. To zaručí, že výsledek, který z vyhledávání vznikne, bude
vždycky aktuální. Pro zobrazování výsledků slouží také nástroj KeyView, jenž
umí zobrazit informace uložené v různých formátech (např. Microsoft Office,
PDF, HTML, SmartSuite, apod.). Vyhledání, formátování a zobrazení výsledků je
možné také podmínit již zmíněnými metadaty.
Vyhledávání a získávání dat
K tomuto účelu se nabízí Verity Information Server. Ten, jak je již patrné z
názvu, dokáže velice spolehlivě plnit funkci informačního serveru společnosti.
Všechny funkce jsou vestavěné tak, aby bylo s Verity Information Serverem (VIS)
hračkou najít, vybrat a zobrazit požadované dokumenty a informace.
Kromě již zmíněného automatického rozšiřování dotazu či inkrementálního
indexování je zde kladen velký důraz na výsledné získání a zobrazení dat.
Možností je opravdu spousta kromě plně měnitelného vzhledu stránek pro
vyhledání a zobrazení výsledků (děje se přes standardní HTML s použitím
skriptovacího jazyka SEARCHScript), nabízí VIS funkce, jako je generování
obsahů textů (skutečné vytváření obsahu, ne jen použití několika prvních vět),
nebo automatické řazení nalezených výsledků podle zadaných témat, či podmínek.
VIS také obsahuje již zmíněného Verity Spidera, takže celý server může fungovat
jako skutečný a velice efektivní "sklad firemních informací".
Dalším systémem, spadajícím do této kategorie, je Verity K2 Toolkit (K2). Tento
produkt je určen opět spíše pro vývojáře, a to pro ty, kteří vyvíjejí velice
robustní aplikace a systémy ve firmách, jejichž informační zázemí mohou tvořit
miliony dokumentů. Kromě všech výhod spojených s technologií Verity, je tedy K2
přizpůsoben tomu, aby mohl být spuštěn i na mnohaprocesorových strojích, se
spoustou diskových prostorů či cest.
Takový stroj je pak schopen zpracovávat obrovské množství současně
probíhajících dotazů. Pro zajištění dostatečné rychlosti vyhledávání je použito
několik optimalizačních technologií např. dotazy probíhající ve stejném indexu
(nebo kolekci) mohou být obsluhovány jedním procesorem a další dotazy jiným.
Donáška až do domu
Proč neustále chodit na nějaký webový server a klást neustále stejný dotaz?
Noviny přece cho-dí do schránky také každý den a předplatné stačí vyplnit jen
jednou. K tomu účelu slouží Verity Agent Server. Pokud uživatele zajímá vždy
stejný, nebo podobný dotaz či téma, může použít svého Agenta a nadefinovat si
svůj dotaz, okruh vyhledávaných informací, podobu výsledků a spoustu dalších
nastavení. Agent pak automaticky vyhledává v dostupných databázích a snaží se
najít informace podle zadaných kritérií. Uživatel pak dostane již rovnou
výsledek, a to cestou, kterou si sám zvolí. Může to být e-mail, SMS, zpráva na
pager, či vygenerovaná webová stránka kdesi na serveru.
S využitím Agent Server Toolkitu lze všechny tyto výhody obohatit např. o
správu desítek tisíců uživatelských profilů, monitorování textu přímo v jejich
původním formátu (HTML, PDF, databáze, e-maily, a spousta dalších), či
napojením přímo na Exchange Server nebo Lotus Notes. Sebemenší změna v
jakémkoliv dokumentu se okamžitě projeví a uživatel má hned k dispozici
výsledky v potřebném formátu.
Publikování
I na téma publikování můžeme najít v rodině produktů firmy Verity poměrně
elegantní řešení. První z nich je CD-Web Publi-sher. Publikování informací na
CD-ROMy pomocí Web Publisheru může mít dvě varianty.
Jako klasickou bychom mohli označit variantu, kde všechna data jsou uložena na
CD-ROMu a uživatel vyhledává v informacích ve svém lokálním počítači, takže
nijak nezatěžuje provoz sítě.
Další varianta použití CD-Web Publisheru je již závislá na spoje-ní s
Internetem. Ta předpokládá, že bude mít uživatel, který chce vyhledávat na
serverech s velkým množstvím dat, u sebe na lokálním počítači CD--ROM (případně
i více) s informacemi, jež jsou uloženy na server. Jedná se pak o jakési
flexibilní spojení CD a Internetu, kde samotný CD-ROM funguje spíš jako cache.
V důsledku se ale může jednat o nemalé snížení objemů dat přenášených po síti,
a také o zvýšení výkonu daného serveru.
Dalším publikačním produktem, který se jistě dokáže zasloužit o lepší spánek
webmasterů, je Verity HTML Export. Do HTML se dají exportovat soubory z velkého
množství formátů (od ASCII textu, přes všechny verze MS Office, až po např.
grafiku WordPerfectu). Pro zajištění automatické konverze je k dispozici HTML
Export C API (Application Programming Interface), aby jej mohli vývojáři použít
ve vlastních webových aplikací, a to např. za pomoci Visual Basicu, nebo Javy.
Při využití ASP skriptů probíhá celá konverze automaticky na serveru, prakticky
bez potřeby cokoliv programovat.
Dokumenty takto zkonvertované pak vypadají a chovají se jako kdyby byly
skutečně vytvořené v HTML. Velikou výhodou tohoto produktu je schopnost
publikovat veliké množství informací bez toho, aby museli mít uživatelé
nainstalovaný nějaký další program či plug-in do webového prohlížeče.
9 1162 / pahn

Zdroje na Internetu
V patách inteligentním vyhledávacím softwarům
http://datamation.com/PlugIn/issues/1998/may/05searc.html
Stránka zabývající se převážně tím, co by jednotlivé vyhledávácí softwary měly
umět nebo umí. K dispozici je, kromě srovnání stávajících vyhledávacích
softwarů, také určitá předpověď toho, kterým směrem se vyhledávání bude (resp.
může) ubírat.
Vyhledávací produkty Verity
http://www.searchtools.com/tools/verity.html
Zde je možné najít poměrně značné množství odkazů na různá témata ohledně
vyhledávacích produktů Verity. Ať už se jedná např. o recenze jednotlivých
produktů, odkazy na stránky s firemními informacemi nebo o informace o nových
vyhledávacích technologiích.
Vyhledávaní pro váš Web
http://searchenginewatch.internet.com/resources/software.html
Celkem rozsáhlý seznam různých vyhledávacích nástrojů pro webové servery. Kromě
informací o různých produktech a jejich technologií směřují odkazy i na další
zajímavá místa na Internetu, případně na místa, kde lze software (pokud je
freeware) stáhnout.
Průvodce po webových vyhledávacích nástrojích
http://www.searchtools.com/info/guide.htm
Na této stránce je možné najít spoustu zajímavých obecných informací o
vyhledávacích nástrojích od více méně základních definic až po některé
nejnovější funkce a možnosti. Jednotlivé konkrétní nástroje jsou zmíněny jen na
okraj.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.