Rafinované prohledávání podnikových dat

Sledujete-li gymnastu, působí jeho výkon magicky pouze tehdy, jestliže je plynulý a bezchybný. Podobně by mělo fungova...


Sledujete-li gymnastu, působí jeho výkon magicky pouze tehdy, jestliže je
plynulý a bezchybný. Podobně by mělo fungovat i vyhledávání. Zadáte dotaz, a
odpovídající výsledky jsou poskytnuty jednoduchým a elegantním způsobem,
dokonce i kdyby měla příprava toho, jak to zajistit, vyžadovat značné úsilí.
Při prohledávání podnikových dat lze dnes získat relevantní výsledky s velkou
úspěšností a to díky novým platformám a technologiím, které se v poslední době
začínají objevovat.
Většina podnikových uživatelů se dodnes potýká s tím, jak extrahovat data z
mnoha různých archivů, z nichž každý obvykle disponuje vlastním vyhledávacím
enginem. Firmy jsou zaplaveny množstvím strukturovaných i nestrukturovaných
dat, a ačkoliv jsou uživatelé nuceni často manuálně označovat dokumenty v
různorodých systémech pro správu obsahu v naději, že budou následně snáze k
nalezení, většina řešení pro vyhledávání stále trpí přílišným výskytem
irelevantních výsledků, jejichž procházení je pouhým plýtváním časem.
Platformy označované zkratkou ESP (Enterprise Search Platform) jsou nicméně na
dobré cestě, jak to změnit. Tyto nové komplexní balíky vyhledávacích a
integračních technologií otevírají brány k informacím "dobře ukrytým" v
datových skladech podniků. Cíl ESP je zdánlivě jednoduchý: zpracovat jednoduché
dotazy a následně vrátit maximálně relevantní výsledky. Avšak při bližším
pohledu se ukáže, že ESP spojují množství právě se vyvíjejících technologií,
jako je autokategorizace, extrakce entit nebo Natural Language Processing (NLP,
zpracování přirozeného jazyka). S využitím ESP coby základní platformy mohou
firmy vybudovat vyhledávací aplikace přizpůsobené vlastním požadavkům a
současně zajistit automatizaci procesu přípravy dokumentů pro archivaci a
indexaci.
"Stavební bloky těchto systémů postupně vzájemně konvergují, takže nemusíte
vynakládat příliš velkou námahu na jejich propojení," komentuje poslední vývoj
v této oblasti Susan Feldmanová, viceprezidentka výzkumu technologií pro
zpracování obsahu ve společnosti IDC. Vyspělé vyhledávací platformy pak
představují sofistikované brány k obrovskému množství informací včetně těch,
které jsou uloženy v systémech disponujících vlastním prohledávacím enginem.
ESP současně poskytují běžnou sadu datové a vyhledávací logiky, kterou je možné
vyladit pro jednotlivé aplikace za účelem zlepšení relevance nalezených
výsledků.
IBM nedávno představila svůj DB2 Information Integrator (s kódovým jménem
Masala), který obsahuje pokročilý vyhledávací engine navržený tak, aby mohl
doplnit systémy výrobce určené pro oblast správy obsahu, DB2 Content Manager a
WebFountain. S řešením Masala se IBM přidává k řadě výrobců, jako jsou
Autonomy, Convera, EasyAsk, Endeca Technologies, Fast Search & Transfer (FAST),
iPhrase Technologies nebo Verity, z nichž každý nabízí platformu pro
vyhledávací aplikace s různými kombinacemi funkcí a nástrojů.

Bourání zdí
Technologie ESP zcela mění způsob, jakým se v podniku provádí "sjednocené
vyhledávání" tedy proces, při němž je jediný dotaz zpracován více vyhledávacími
enginy a uživateli jsou prezentovány agregované výsledky. Sjednocené hledání
obvykle rozšiřuje možnosti prohledávání podobných datových skladů, ale může
ztrácet význam, jestliže je prováděno proti externím databázím, které vyžadují
specifickou syntaxi.
"Základní koncepce sjednoceného hledání, která je využívána už léta, nedokáže
uživatele ochránit před přebytkem informací poskytuje obvykle irelevantní
výsledky z mnoha prohledávacích enginů namísto jediného," popisuje Hadley
Reynolds, ředitel výzkumu ve firmě Delphi Group. "Bez nějakých dodatečných
vylepšení je to dosti omezený nástroj."
Sdružování má nepochybně význam podniky obvykle disponují více vyhledávacími
nástroji zabudovanými v různých aplikacích, například jedním v systému pro
správu obsahu, druhým v prostředí Microsoft Office a dalším v e-mailovém
systému. ESP zastřešuje jednotlivé enginy různých úložišť či archivů dat,
přičemž zajišťuje překlad syntaxe každého dotazu a další lingvistické funkce,
jako je kontrola pravopisu (spell-check) a detekce frází, ještě před tím, než
bude započato procházení datových skladišť.
Na indexační vrstvě pomáhá ESP uživatelům tím, že vrací seznamy pro možnost
lepší volby dotazu založené na kontextu toho původního, někdy poměrně nejasně
formulovaného. Příkladem je řešení FAST, na němž je založen i internetový
engine Scirus.com, určený pro vyhledávání vědeckých informací. Zadáte-li slovo
"nuclear" ve snaze získat příspěvky na toto téma publikované v on-line
vědeckých periodikách, klíčové slovo vychrlí přes 700 tisíc výsledků. Přesnější
vyhledávání na základě klíčového výrazu vybraného z přehledu návrhů na pravé
straně stránky "nuclear facility" ořízne jejich počet přibližně na tisícovku a
po dalším kliknutí, například na "uranium enrichment", snížíte počet
relevantních výsledků zhruba na 10.
Firma Endeca nabízí technologii, která kombinuje vyhledávání s nástrojem
označovaným Guided Navigation. Při vyhledávání klíčového slova je automaticky
vygenerován adresář, který může uživatel využít k postupnému procházení směrem
k progresivně tříděným, upřesněným výsledkům.

Dokonalé vyladění
Efektivní vyhledávací rozhraní pro firemní uživatele dnes podle Reynoldse
vyžaduje "znalostmi řízené vyhledávací aplikace" šité na míru pro danou
obchodní sféru či obor. "Aby bylo možné dosáhnout skutečné přesnosti, musí být
vyhledávací software vyladěn tak, aby rozuměl kontextu oblasti, v níž uživatel
pracuje," říká. "Jde o vývojovou strategii soustředěnou na obchodní procesy,
takže se musíte na platformu dívat z perspektivy její schopnosti splnit
specifické požadavky uživatelů."
Reynolds dodává, že například Autonomy a FAST už nabízejí balíky předem
připravené pro potřeby call center či systémy pro market intelligence nebo
oblast financí. Stejně tak Verity poskytuje několik aplikačních šablon. S
využitím na míru šitých vyhledávacích rozhraní se pak nemůže stát, že když
makléř zadá heslo "bonds" (cenné papíry), bude muset procházet odkazy
související s heslem "lepidlo" (tedy dalším z významů slova "bond").
Marketrac společnosti FAST představuje aplikační vrstvu nad ESP tohoto
dodavatele, která poskytuje vyhledávací rozhraní, jehož prostřednictvím lze
přistupovat k obsahu e-mailů, RSS kanálů (news feed) i konkurenčních webů či
databáze CRM. Nástroje pro kategorizaci, jež platforma nabízí, pak umožňují
nalezený obsah prozkoumat pomocí významových vzorů a předmětů.

Relevance
Společnost Google zvolila u svého podnikového systému Search Appliance jiný
přístup nabízí možnost využívat za firewallem technologii, která se už
osvědčila ve veřejném vyhledávači. Toto zařízení však v podstatě představuje
vyhledávací engine, nikoliv komplexní platformu.
David Girouard, manažer pro podnikové produkty Googlu, upozorňuje: "Platformy
ESP představují pro uživatele jisté břemeno. Jestliže se výsledky zobrazí na
první stránce, uživatelé se už nestarají, co je dále za ní. Naše řešení namísto
toho poskytuje algoritmus pro určení maximální relevance, díky němuž výskyt
většího množství výsledků nepředstavuje problém." Zařízení Googlu může pomoci
zejména firmám, které nedisponují potřebnou či dostatečně kvalitní vyhledávací
technologií stačí zpřístupnit archivy a zprovoznit engine Googlu.
Avšak Reynolds z Delphi Group si myslí, že by firmy měly přestat investovat
pouze do generických nástrojů a začít se soustředit na požadavky specifické pro
svůj obor. "Kromě IT oddělení by do volby technologie měli víc mluvit i
zaměstnanci reprezentující obchodní část firmy, aby se přesvědčili, že IT
specialisté využívají poskytnuté zdroje k vývoji vyhledávacích aplikací
vyhovujících jejich potřebám."
Andrew McKay, viceprezident pro přímý prodej společnosti Fast, souhlasí,
nicméně dodává: "Výrobci vyhledávacích technologií dnes nebojují jen o to, aby
ukousli co největší podíl z tržního koláče, ale i o to, aby se koláč jako
takový dramaticky zvětšoval s tím, jak exponenciálně rostou informační
úložiště."

Vše na cestě
Firmy se po mnoho let potýkaly s tím, jak prohledávat nestrukturovaná data tedy
informace, které se nacházejí mimo podnikové aplikace a databáze, aby dosáhly
srovnatelné přesnosti, jakou lze očekávat u strukturovaných dat. Podle
Reynoldse se však možnosti indexace a vyhledávání nestrukturovaných informací
vyvíjejí spolu s ESP v řetězec různých vyhledávacích algoritmů a vyspělých
technologií. Ty dovolují provádět dynamickou kategorizaci nebo cílenou analýzu
textu jak při procesu analýzy dokumentů ve chvíli, kdy jsou zařazovány do
vyhledávací platformy, tak při procesech vyhodnocování dotazů a generování
relevantních výsledků.
Relativně novým doplňkem tohoto řetězce je extrakce entit, při níž vyhledávací
engine z indexovaného obsahu pomocí gramatické analýzy za běhu dynamicky
extrahuje výrazy. Tento proces zahrnuje také identifikaci vlastních jmen a
vytváření seznamu osob, míst či věcí obsažených v dokumentu a vkládá pak do něj
novou úroveň metadat (založených na tomto seznamu).
Další inovativní technologií je NLP (tj. zpracování přirozeného jazyka), jež
pomáhá přeměnit špatně formulované dotazy do správné podoby. Nejvyspělejší
vyhledávací platformy zahrnují širokou paletu algoritmů, pravidel i nástrojů
pro vylepšování dat či profilování uživatelů a kontextu ty všechny spolupracují
na tom, aby uživatelé dostali odpovědi na své otázky.
Pokud jde o metadata, starší metody manuálního definování vlastností dokumentu
jsou podle Kaye z firmy Fast postupně nahrazovány možnostmi inteligentních
vyhledávacích platforem, které nabízejí funkce automatického značkování
(autotagging) založené na specifické logice uživatelů.
Samotné ESP může v obsahu odhalit určité vzory a vylepšit možnosti jeho
prohledávání v rámci infrastruktury tím, že automaticky vytváří elementy
metadat. Díky stále širšímu využití XML v prostředích pro vyhledávání mohou být
taková metadata využívána při aplikačním zpracování, vylepšování dotazů i
možnostech prezentace.
Dokonalejší klasifikace a taxonomie vstupují do hry zejména tím, že uživateli
dovolují procházet informace podle oblastí jeho zájmu (respektive oboru)
namísto toho, aby se musel spoléhat pouze na prázdné vyhledávací okno a svoji
schopnost precizní formulace efektivního dotazu. Dynamická klasifikace umožňuje
modifikovat oborovou prezentaci podle kontextu dotazu. "Nové technologie ve
svém výsledku umožňují překlenout světy strukturovaných a nestrukturovaných
dat," říká Pete Bell, spoluzakladatel firmy Endeca.
Společnost Verity využívá několik přístupů, aby zajistila, že budou
nestrukturovaná data poskytovat větší užitek. Nově představené řešení Extractor
automaticky předzpracovává dokumenty, v nichž vyhledává pojmy, vzory či entity,
a na základě toho soubory označkuje. Na další úrovni pak nástroj Collaborative
Classifier pomáhá oborovým expertům ve firmě, aby si poradili s tvorbou a
správou taxonomií. Celý proces je velmi intuitivní pro všechny uživatele a
jejich vzájemná spolupráce vede podle výrobce k přesnější kategorizaci.

Bezpečný end-to-end
Ačkoliv je hranice mezi běžnými a firemními vyhledávači poněkud rozmazaná,
klíčový rozdíl spočívá v architektuře pro zabezpečení podnikových řešení.
"Bezpečnost představuje značný problém nikdo přece nechce, aby vyhledávací
nástroj nabízel výsledky, mezi nimiž jsou i ty, k nimž uživatel není oprávněn
přístupovat," upozorňuje Feldmanová z IDC. Tvrdí nicméně, že zabezpečení na
úrovni platformy je poměrně přímočaré. "Jestliže se postaráte o zabezpečení na
úrovni dokumentů a na úrovni archivu, vyhledávací engine může tyto informace
využít pro indexaci dokumentů podle přístupových práv. Mohou být také provázány
s LDAP adresářem, aby bylo možné prověřit práva na úrovni kolekcí."
John McPherson, specialista z firmy IBM, vysvětluje, že vyhledávací engine v
systému DB2 Information Integrator umožňuje integraci přidělených oprávnění i
zabezpečení dat v příslušném archivu. "K dispozici jsou bezpečnostní mechanismy
na úrovni dokumentů a rozhraní aplikaci umožňuje provádět vyhledávání jménem
uživatele s určitou úrovní oprávnění, takže pak má k dispozici pouze ty
výsledky, které této úrovni odpovídají," popisuje McPherson.
Reynolds z Delphi Group dodává: "Platformy a nástroje pro vyhledávání si
nesmějí vynucovat použití specifických bezpečnostních schémat musejí být
flexibilní a agnostické vůči zbytku podnikového prostředí."

Konec složitosti
Uživatelé se málokdy starají o to, jakým způsobem jsou poskytovány výsledky.
"Dodavatelé vyhledávacích platforem musejí uživatelům zajistit jednotné
možnosti a skrýt před nimi fakt, že v pozadí jsou využívány různé vyhledávací
enginy, indexy a možnosti," podotýká Laura Ramosová, viceprezidentka pro výzkum
ve společnosti Forrester Research.
Avšak na druhou stranu ESP zpravidla vyžadují využívání inteligentních metod
vyhledávání. Podle Feldmanové z IDC pomalu přestává postačovat prázdné pole pro
vyhledávání podle tří zadaných slov: "ESP řešení vytvářejí nové typy rozhraní a
tyto platformy pak musejí být provázány a spolupracovat s dalšími nástroji
nasazenými v podniku."

Jednoduché rady pro složité hledání
Když pracují tak, jak mají, jsou vyhledávací aplikace skvělými nástroji pro
poskytování aktuálních informací, s nimiž se lze vyhnout špatným rozhodnutím.
Avšak vyladit vyhledávací infrastrukturu do této míry vyžaduje prozíravost a
precizní realizaci. Zde je několik rad odborníků, jak dát podnikovému
vyhledávání správný směr.
Maximalizace možností: Při vyhledávání je snadné ztratit stopu, pokud se
uživatelé orientují výhradně na web měli by mít přístup také k užitečnému
obsahu v databázích, podnikových aplikacích, knihovnách dokumentů, ve veřejných
složkách e-mailových a souborových serverů nebo v diskusních skupinách.
Snadný přístup k nástrojům: Vyhledávání by mělo být možné provádět odkudkoliv z
intranetu i veřejně přístupného webu. Vyhledávací pole (nebo alespoň odkaz na
něj) by mělo být umístěno na dobře viditelném místě každé stránky.
Zachování jednoduchosti: Vyhledávací stránka musí zůstat maximálně přehledná.
Neměla by chybět alespoň jednoduchá vizuální vodítka, jako třeba víceřádková
pole, která uživateli naznačují, že do nich může vepsat více než jen několik
klíčových slov. Podobně na stránce výsledků by měly být eliminovány
nesouvisející obrázky a odkazy, namísto nich by měla uživateli poskytnout
srozumitelné možnosti pro rychlou přeměnu výsledků do různých formátů a pro
navigaci.
Efektivita a automatizace: Informace mají mizivou hodnotu, pokud zůstanou pouze
v hlavách uživatelů. Proces publikování dokumentů na portálu by měl být stejně
snadný jako jejich ukládání na desktopu. Proto je vhodné eliminovat co nejvíce
kroků, které jsou k tomu nezbytné.
Vhodná ochrana: Není třeba se bát nabízet zabezpečený webový obsah, databáze s
omezeným přístupem a prémiové služby za příplatek, jako jsou LexisNexis či
Factiva. Avšak poskytovatel obsahu musí nabídnout i odpovídající možnosti
autentizace, aby bylo možné omezit přístup ke chráněnému obsahu pouze pro
oprávněné uživatele.
Single Sign-On: SSO architektura umožní uživatelům procházet veškerý obsah ve
všech on-line informačních zdrojích prostřednictvím jediného dotazu úspora času
tak může dále vzrůst.
Dostatečná rychlost: Nejenže by měly být díky využití SSO pohotově vráceny
výsledky chráněného obsahu, ale rychlá musí být celková odezva vyhledávacího
systému obecně. To je zárukou spokojenosti uživatelů i důvodem pro to, aby se
na stránky v budoucnu vrátili.
Podpora zpětné vazby: Nelze předpokládat, že bude vyhledávání od počátku
fungovat tak, že nabídne plný potenciál, jen na základě vždy omezeného
testování. Proto je vhodné získat zpětnou vazbu od koncových uživatelů na
základě reálného provozu. Zjistěte, co se jim na implementaci technologie
vyhledávání líbí a co je třeba zlepšit, a berte na jejich komentáře ohled.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.