Textové databáze

S rozšiřováním počítačů do všech oblastí zpracování informací se v informatice postupně vytvořil nový obor tex...


S rozšiřováním počítačů do všech oblastí zpracování informací se v informatice
postupně vytvořil nový obor textové databáze. Na druhé straně by se mohlo zdát,
že tu textové databáze byly odjakživa, dokonce patřily k prvotním aplikacím
počítačů a začlenily se postupně do samostatného směru bibliografické
informatiky (v angličtině známé jako information retrieval). Jistý rozdíl tu
ovšem je. Zatímco dříve obsahovaly textové databáze pouze data tzv.
sekundárních informací (např. abstrakty článků), dnešní pojetí textových
databází je širší. Mohou obsahovat úplné texty dokumentů, tyto dokumenty mohou
být strukturované nebo nestrukturované, mohou být dokonce součástí dalších,
formátovaných dat, tak jak je známe v běžných relačních DBS. Aplikace textových
databází jsou široké. Řadíme mezi ně knihovny, digitální knihovny, kancelářské
systémy, on-line slovníky, encyklopedie apod.
Textová databáze má 2 části: obsah a strukturu (existuje-li). Obsahem je text
sám. Struktura definuje různé části textové databáze podle nějakého kritéria.
Základním datovým typem v textových databázích je text (obvykle v přirozeném
jazyce).
Ve spektru informačních systémů (IS) pak lze rozlišit 2 krajní polohy:
dokumentografické a faktografické IS. Druhý typ je založen na běžných
databázích s formátovanými daty, organizovanými např. do tabulek. Je zřejmé, že
trendem je dnes mít IS umožňující pohybovat se v obou těchto polohách, případně
kombinovat data z obou v rámci jednoho požadavku.
Textové databáze, podobně jako formátované, pracují s nějakým modelem textové
databáze. Ten by měl specifikovat 3 prostředky:
ljak popsat text (množina znaků, množina významových a nevýznamových slov
apod.),
ljak popsat strukturu textu (text je množina odstavců, odstavec se skládá z
vět, k textu patří explicitní indexová struktura atd.),
ldotazovací jazyk (na které objekty se lze ptát, jak se lze ptát, jaká je
struktura odpovědi apod.).
V DIS lze pak formulovat základní vyhledávací problém: nalézt k uživatelskému
požadavku dotazu relevantní dokumenty. Mezi problémy, souvisejícími s
vyhledávacím problémem patří zejména:
ljak určit, co je relevantní a co ne,
lzajistit efektivnost zpracování,
lzajistit uspořádání výstupů podle relevance.
Model textové databáze je tedy soubor pojmů a nástrojů umožňujících popsat
textovou databázi a formulovat základní vyhledávací algoritmy umožňující řešit
vyhledávací problém.
Komponenty DIS
DIS se skládá z několika spolupracujících komponent (viz obr.). Ne v každé
implementaci se vyskytují všechny zde popsané části. Kvalita jednotlivých
prvků, použitých v konkrétním systému, potom určuje výslednou kvalitu, tedy
míru uspokojení jeho uživatele či uživatelů.
Jednou z komponent DIS je vstupní textový filtr, který provádí lexikální
analýzu vstupujícího textu dokumentu a převádí přečtené lexikální jednotky
textu (slova) na základní tvar. Nazývá se často lematizátor. V existujících
jazycích (český jazyk je v tomto směru velmi bohatý) má většina slov mnoho
tvarů, lišících se podle rodu, pádu, jednotného či množného čísla. Jindy může
mít jedno slovo několik odlišných významů (např. let = rok, létat).
Vytvářet základní tvary (kmeny) znamená pro angličtinu obvykle "odřezávaní"
koncovek. V češtině by se tento přístup mohl zdát nedostačující, nicméně bez
lingvistického aparátu může znamenat vhodné první přiblížení. Pomocí kmenů lze
výrazně snížit počet významových slov. Jde o slova, podle kterých se
předpokládá vyhledávání. Některé studie uvádějí, že pro kancelářské systémy se
jejich celkový počet redukuje na 25-30 %.
Vžitá pravidla pro ohýbání slov jsou velmi složitá a mají množství výjimek. Pro
bezchybné rozlišení jednotlivých případů je nezbytná schopnost porozumění
textu. Proto, je-li tato komponenta součástí systému, zpravidla se neobejde bez
interakce s uživatelem.
V další fázi se vyčlení seznam nevýznamových slov (angl. stop words). Další
komponentou v klasických DIS je zpracování indexační jednotky. Tato komponenta
má za úkol obohatit ukládané texty o doplňující datové struktury, které umožní
efektivní vyhledávání. V této fázi zpracování se ke každému textovému dokumentu
doplní jeho počítačová reprezentace, která se nazývá záznam dokumentu.
Záznam obsahuje formální popis dokumentu, skládající se z hod-not vhodně
specifikovaných atributů (položek), a z množiny termů, které ve stručné podobě
vystihují obsah plného znění dokumentu. Vzhledem k nejednotné terminologii
budeme pod termem chápat jistý vzorek textu (výraz), který může být víceslovný
nebo také jednoslovný. Jednoslovným (ale mnohdy i víceslovným) termům se také
někdy říká klíčová slova, místo o termech se také hovoří o deskriptorech. V
každém případě jde o významová slova.
Nalezení vhodné množiny termů je v obecnosti velmi náročná úloha, která v
mezním případě vyžaduje porozumění sémantickému významu textu. Termy, vybrané
během indexace, musí dostatečně přesně reprezentovat obsah dokumentu a také dát
do souvislosti dokumenty, týkající se podobného tématu. Přitom obecné termy,
vyskytující se ve všech, resp. skoro ve všech dokumentech, nemají pro účel
vyhledávání téměř žádný význam. Malý význam mají také ty termy, které se
vyskytují v příliš malém počtu dokumentů.
Proces přiřazení množiny termů dokumentu indexace dokumentu se proto v mnoha
systémech provádí buď ručně, nebo poloautomaticky. V prvním případě provede
specialista v daném oboru indexátor sám výběr nejvhodnějších termů, v druhém
případě systém poskytuje možnost upravit množinu termů, vytvořenou v DIS na
základě analýzy plného textu.
Je zřejmé, že řešení vyhledávacího problému vyžaduje další komponentu DIS
vyhledávací stroj. Tato komponenta využívá indexů a vybírá z textové databáze
dokumenty, které vyhovují dotazu, zadanému uživatelem.
Zpracování dotazu může probíhat podobně. Dotaz se analyzuje, provádí se
lematizace, která významně může rozšířit dotazování. Např. zadáním termu
"databázový", jeho lematizací na "databáz" se automaticky do dotazu zahrnou
termy jako "databázového" apod. Vyhodnocení dotazu spočívá většinou v porovnání
termů uvedených uživatelem v dotazu se záznamy, které reprezentují jednotlivé
dokumenty.
Indexace ovšem nemusí být vyjádřena pomocí termů. Obsah dokumentu lze vyjádřit
i jinak, např. jistým zakódováním textu do podstatně kratšího řetězce znaků
signatury. Jinou možností může být ocenění termů popisujících dokument čísly
(váhami) vyjadřujícími důležitost termu v dokumentu. Využití lingvistiky může
znamenat např. využití jistých relací mezi termy. Takové relace tvoří další
pomocné struktury dat (tezaury), které mohou zaručit výběr takových dokumentů,
jejichž termy jsou jiné než ty zadané v dotazu, a přesto je výsledek relevantní.
Ze softwarově inženýrského hlediska nesmíme zapomenout na komponentu
uživatelské rozhraní. Přes ně se komunikuje s uživatelem a nabízí se mu možnost
klást na DIS požadavky pomoci dotazovacího jazyka. Zatímco v oblasti
faktografických IS existují pro komunikaci standardy (nejznámějším dotazovacím
jazykem je SQL), kterými se výrobci řídí, standardizace dotazovacích jazyků v
DIS je teprve v začátcích a každý produkt obsahuje vlastní způsob formulace
dotazů. Existují však již rozšíření SQL o manipulaci s dokumenty.
Ve většině případů jsou dotazy formulovány pomocí přesně definovaného
formálního jazyka (založeného většinou na Booleově algebře). U nejnovějších
systémů se v poslední době začínají objevovat i rozhraní, komunikující s
uživatelem v přirozeném jazyce.
Relevance, zpětná vazba
Míra uspokojení uživatelských dotazů se nazývá informativnost DIS. Ty systémy,
které uspokojují požadavky uživatele, se nazývají informativní.
Pro stanovení míry informativnosti DIS se používají tradičně hodnoty dvou
koeficientů, koeficientu přesnosti P (precision) a úplnosti R (recall). Hodnoty
těchto koeficientů jsou definovány takto:
P = počet relevantních vybraných dokumentů/počet všech vybraných dokumentů
R = počet relevantních vybraných dokumentů/počet všech relevantních dokumentů v
databázi
Relevantním dokumentem (v terminologii DIS často nazývaným hitem) se rozumí
takový dokument, který uživatel uznal za skutečně důležitý a vyhovující jeho
požadavkům.
Koeficienty R, respektive P, vyjadřují pro daný DIS pravděpodobnost, že
relevantní text bude na základě dotazu vybrán z databáze, respektive
pravděpodobnost, že vybraný text bude relevantní. Ideálním by byl takový DIS,
pro který P = R = 1. Existující DIS však dosahují podstatně nižších hodnot.
Nejpodstatnější však je, že existuje závislost nepřímé úměrnosti mezi oběma
koeficienty. Při zvyšování koeficientu přesnosti, tedy poměrného zastoupení
relevantních dokumentů na výstupu, se snižuje absolutní počet vybraných
relevantních textů. Tento "přírodní zákon", charakteristický hlavně pro Boolské
vyhledávání, je dnes jednou z největších překážek při vyhledávání v rozsáhlých
textových databázích.
Současné DIS obsahují dále možnosti, jak relevanci odhadnout a seřadit
dokumenty na výstupu podle relevance. Označením těch nejzajímavějších
(uživatelem) lze dokonce zařídit automatickou modifikaci požadavku (zpětná
vazba) a iterativně se přibližovat k co nejlepšímu výsledku.
8 0119 / or









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.