Od surového textu k modelu dokumentu

Aby bolo možné textové dokumenty automaticky spracovávať a extrahovať informácie v nich uložené, je nutné pretransfo...


Aby bolo možné textové dokumenty automaticky spracovávať a extrahovať
informácie v nich uložené, je nutné pretransformovať ich z ich "surovej" formy
do nejakej inej, vhodnejšej na spracovanie. Táto "iná forma" umožňujúca logický
pohíad na dokument, sa nazýva model dokumentu.
Dokumenty, ktoré sa majú spracovať a následne prehíadávať podía požiadaviek
používateíov, tvoria tzv. korpus. Každý textový dokument je z híadiska
reprezentácie v počítači množina lexikálnych jednotiek (slov, viet, odstavcov
etc.) v istom poradí. Význam každého dokumentu mÖže byť reprezentovaný vybranou
množinou termov. Hlavným cieíom indexácie dokumentov je vybrať také termy na
charakterizáciu dokumentu, ktoré ho čo najlepšie charakterizujú a čo najlepšie
ho odlišujú do všetkých ostatných dokumentov.

Kvalita vyhíadávania
Kvalita vyhíadávania sa vyjadruje dvomi veličinami. Prvou z nich je presnosť
(angl. precision); vyjadruje, koíko z nájdených dokumentov (dokumentov
vrátených vyhíadávacím systémom na používateíov dotaz) je skutočne relevantných
k tomuto dotazu. Druhou nemenej dÖležitou veličinou ohodnotenia vyhíadávacieho
systému je návratnosť (angl. recall), ktorá vyjadruje, koíko zo všetkých
dostupných dokumentov relevantných používateíovmu dotazu bolo vyhíadávacím
systémom aj nájdených a vrátených.
Ako by mal pracovať ideálny vyhíadávací systém? Jeho návratnosť by mala byť
rovná jednej (t. j. všetky relevantné dokumenty by mali byť nájdené) a rovnako
by mala byť rovná jednej aj presnosť (t. j. všetky vrátené dokumenty by mali
byť relevantné).
Existujú samozrejme aj ďalšie kritériá ohodnotenia kvality vyhíadávačov, ako je
napríklad rýchlosť vyhíadávania. Tieto sú ale celkom íahko merateíné a závisia
skÖr od použitých hardvérových technológií či od efektívnosti softvérovej
implementácie ako od samotnej problematiky indexácie dokumentov.

Problémy prehíadávania
Nech už je spÖsob indexácie dokumentov implementovaný íubovoíným spÖsobom,
existujú dva hlavé problémy, s ktorými sa tento systém musí vyrovnať. Prvým z
nich je polysémický problém vystihuje fakt, že to isté slovo (term) mÖže mať
rÖzne významy. Z vyššie uvedených mier kvality vyhíadávania je polysémickým
problémom dotknutá najmä presnosť.
Druhým závažným problémom prehíadávania priestoru dokumentov je synonymický
problém. Kvalitný systém spracovania dokumentov musí byť schopný synonymá
identifikovať a premapovať ich na jeden term; táto črta je podstatná z híadiska
dosiahnutia dobrej návratnosti vyhíadávania.

Predspracovanie
SkÖr ako mÖže začať samotná indexácia dokumentov, je potrebné ich
predspracovať. Hlavnou úlohou predspracovania dokumentov je vylúčiť ich
nepodstatné časti a znížiť rozsah dokumentov.
Prvým krokom je identifikácia termov. Dokumenty sa prechádzajú znak po znaku,
odstraňujú sa interpunkčné znamienka, pomlčky, apod. Všetky znaky sa prevedú na
veíké alebo malé; pre ďalšie spracovanie nie je veíkosť znakov rozhodujúca
(case insensitive).
Ďalej nasleduje krok predspracovania dÖležitý pre zníženie rozsahu údajov,
ktoré je nutné spracovať pri samotnom zadaní používateískej požiadavky na
vyhíadávanie dokumentov. Tomuto kroku sa hovorí eliminácia stopwordov. Zvyčajne
sa na elimináciu používajú slovníky stopwordov, ale je možná aj ich štatistická
identifikácia z konkrétneho korpusu.
Následne sa termy prevádzajú na základné tvary, tzv. stemy. Odstraňujú sa
slovotvorné predpony a prípony; zostáva iba základ slova. Týmto krokom dochádza
k ďalšej významnej redukcii počtu termov, nakoíko všetky termy (v ideálnom
prípade) odvodené z jedného slovotvorného základu sa zlúčia do jediného stemu.

Tvorba indexu
Až z takto predspracovaných dokumentov sa vytvorí tzv. index. Zaradia sa do
neho všetky termy, ktoré po predspracovaní zostali. Spolu s nimi sa sem zaradia
aj potrebné štatistické údaje, ako je počet výskytov daného termu v každom z
dokumentov, počet dokumentov, v ktorých sa daný term vyskytuje a pod.
Pokročilejšie systémy mÖžu zohíadňovať aj miesto, kde sa daný term v dokumente
vyskytuje (názov, začiatok dokumentu možný abstrakt, alebo bežný text); táto
črta je však závislá od toho, aký model dokumentu sa pre reprezentáciu korpusu
zvolil.
Na danom mieste je nutné sa zamyslieť, do akej miery je potrebné uplatniť
uvedené postupy predspracovania dokumentov, ak má byť vyhíadávací systém
úspešný. Pravdou je, že väčšina indexových vyhíadávačov končí predspracovanie
už pred krokom eliminácie stopwordov, resp. nasledujúce kroky (elimináciu
stopwordov a identifikáciau stemov) robí iba vo veími obmedzenej miere.
Prečo je tomu tak? Vezmime si napríklad frázu "to be or not to be". Aj
priemerný človek v nej okamžite spozná Shakespearovho Hamleta. Ak však nad
Hamletom urobíme dÖsledné predspracovanie so silnou elimináciou stopwordov,
pravdepodobne sa do výsledného indexu ani jedno zo slov tvoriacich uvedenú
frázu nedostane. Všetko sú to totiž málo významné slová, ktoré samé osebe
nevravia nič o význame dokumentu; nakoíko ide o slová vyskytujúce sa snáď v
každom anglickom texte, nie sú pre odlíšenie jedného konkrétneho dokumentu od
iných dokumentov významné.
Tak, ako sa predspracovanie uskutočňuje na korpuse dokumentov, podlieha
predspracovaniu aj používateíský dotaz. Tento sa musí transformovať na rovnakú
podobu akú má reprezentácia jedného dokumentu v indexe prakticky ide o
identifikáciu pre používateía zaujímavých termov. Samotné vyhíadávanie následne
len určuje podobnosť (angl. similarity) medzi reprezentáciou používateíského
dotazu a každého dokumentu korpusu, prípadne sú dokumenty podía zistenej
podobnosti s dotazom zoraďované od najrelevantnejších po najmenej zaujímavé.
Rozdiel v predspracovaní dotazu oproti predspracovaniu dokumentu je v tom, že
rozsah dotazu je veími malý často iba niekoíko slov a tieto slová sú po
informačnej stránke významné (odpadá eliminácia stopwordov).

Modely dokumentov

V predchádzajúcom texte boli často spomínané modely dokumentov. Najjednoduchším
modelom je booleovský model. Dokumenty v ňom sú reprezentované tzv.
term-dokument maticou. Jej riadky predstavujú dokumenty, stípce reprezentujú
termy. V matici sa nachádzajú iba dve hodnoty: jednotka, ak sa daný v term v
danom dokumente vyskytuje, alebo v opačnom prípade nula.
Vyhíadávanie v tomto modeli je veími rýchle. Za túto efektivitu je zaplatené
nemožnosťou určiť mieru podobnosti používateíovho dotazu a dokumentu a zoradiť
nájdené dokumenty podía tejto podobnosti. Problémové sú aj rozsiahle dokumenty
obsahujúce obrovský počet rÖznych termov, ktoré sa tak stávajú podobnými k
väčšine používateíských dotazov.
Modelom, ktorý rieši nevýhody booleovského modelu, je vektorový model.
Term-dokument matica je zhodná s maticou boolovského modelu, ale neobsahuje iba
jednotky a nuly, ale obsahuje váhy termov v dokumentoch. Tým tento model dokáže
vystihnúť počet výskytov daného termu v každom z dokumentov ako aj zohíadniť
napr. výskyt termu v názve dokumentu. Obrovským prínosom tohto modelu je to, že
dokumenty nájdené ako relevantné k používateíovmu dotazu mÖžu byť zoradené
podía ich relevancie.
Váhovanie vo vektorovom modeli sa mÖže uskutočňovať viacerými spÖsobmi.
Najjednoduchší spÖsob je odvodený od počtu výskytov termu v dokumente. Váha
termu v dokumente je tým väčšia, čím častejšie sa term v dokumente nachádza. V
praxi sa používajú rÖzne modifikácie tejto metódy.
Existujú však aj iné spÖsoby váhovania vo vektorovom modeli. Tzv. TF-IDF
váhovanie je implementáciou teórie inverzných dokumentov, ktorá je založená na
jednoduchej a elegantnej myšlienke, že daný dokument (skupinu dokumentov)
najlepšie charakterizujú tie slová, ktoré sa v ňom (v nich) nachádzajú často,
ale zároveň sa v ostatných dokumentoch nachádzajú len veími zriedkavo.
Tento spÖsob váhovania zachytáva okrem lokálnych (vzhíadom na jeden dokument)
híadísk dÖležitosti termov aj globálne (vzhíadom na celý korpus dokumentov)
híadiská; tým sa vo váhovaní do určitej miery supluje eliminácia stopwordov z
fázy predspracovania dokumentov. Výpočtovo je tento postup váhovania síce
náročnejší oproti predchádzajúcim spomínaným metódam, ale zvyčajne sa ním
dosahujú dobré výsledky vyhíadávania.
Existujú aj ďalšie modely dokumentov. Za zmienku stojí napr. pravdepodobnostný
model, ktorý sa pre každý model pokúsi určiť pravdepodobnosť, že daný dokument
je relevantný k používateíovmu dotazu, používajúc pri tom štatistické
klasifikátory. Nájdené dokumenty je tiež možné podía vypočítaných
pravdepodobností relevancie usporiadať a používateíovi ako prvé poskytnúť tie
dokumenty, ktoré sa štatisticky javia k jeho dotazu najzaujímavejšie.

Slovníček
Term: Vybraná lexikálna jednotka; zvyčajne je základnou lexikálnou jednotkou
považovanou za term slovo, ale mÖže to byť aj slovné spojenie ("informačné
technológie"), URL adresa (http://www.cw.cz) alebo dátum (1. 1. 1970).
Stopword: Slovo, ktoré sa veími často vyskytuje v bežnom texte a pre
identifikáciu dokumentov nemá nijaký zvláštny význam. Jedná sa tu najmä o
spojky, pomocné a modálne slovesá, predložky alebo (v niektorých jazykoch) o
členy.
Model dokumentu: Logický pohíad na dokument, ktorý umožňuje jeho kategorizáciu
na základe používateíovej požiadavky do skupiny pre neho relevantných alebo
nerelevantných dokumentov.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.