Zbraně proti entropii Internetu

Tvrzení, že Internet dnes přináší uživatelům informace z celého světa doslova až na jejich pracovní stůl, zní ji...


Tvrzení, že Internet dnes přináší uživatelům informace z celého světa doslova
až na jejich pracovní stůl, zní již jako fráze. Každopádně, čas uživatelů je
drahý a aby se jej podařilo redukovat, hledají se a testují stále nové
vyhledávací stroje. Softwarové společnosti ve spolupráci s univerzitami a
výzkumnými ústavy chvátají, aby byly prvními, kdo na tomto poli vyvine opravdu
inteligentní nástroje, které by poskytly adresnější výběry, důslednou redukci
objemů dat a v konečném důsledku tak snížily rostoucí entropii Internetu.

Entropie Internetu
Dokumenty z obecného hlediska představují prostředky přenosu či uchování modelů
skutečnosti ve znakové podobě. Mezi modely a soubory znaků, které je
reprezentují, však existuje určitý stupeň volnosti, projevující se tím, že
rozdílné modely lze popsat soubory znaků s vysokým počtem shodných prvků i
vazeb mezi prvky a naopak k popisu obsahově blízkých modelů lze použít soubory
znaků s velmi nízkým stupněm podobnosti prvků a jejich vazeb.
Při vyhledávání, jehož podstatou je zjišťování shody mezi modelem dotazu a
modelem dokumentu, se tyto vlastnosti struktury souborů znaků projevují
sníženou schopností systému vyhledat požadované informace.
Inteligentní systémy, využívající poznatky z lingvistiky či kognitivní vědy,
vykazují vyšší pravděpodobnost, že určitému souboru lexikálních jednotek
(dotazu) bude přiřazen odpovídající model skutečnosti než systémům takto
programově neošetřeným.
Pro vyhledávání na Internetu je dnes charakteristický vysoký nepoměr mezi
úplností a přesností vyhledávání. (Přesností vyhledávání, respektive
koeficientem přesnosti rozumíme kvantitativní údaj udávající poměr vyhledaných
relevantních a všech relevantních textů. Úplností vyhledávání, respektive
koeficientem úplnosti rozumíme poměr vyhledaných relevantních a všech
vyhledaných textů. Ideálem je dosažení situace, kdy hodnota koeficientu
úplnosti i přesnosti se rovná 1.)
Díky tomuto nepoměru je cesta od vyhledaných dokumentů k vytvoření
strukturovaných znalostí ještě velice dlouhá a klade značné nároky přinejmenším
na uživatelův čas.

K čemu je dobrá lingvistika?
Existuje celá řada metod vyhledávání, které dospívají ke zvýšení efektivnosti
dokonalejším poznáním struktury dotazu i textu s následnou analýzou jejich
podobnosti. Vychází se přitom z předpokladu, že s dosažením vyšší podobnosti
mezi dotazem a textem lze dospět k úplnosti i přesnosti vyhledávání. Uvedeme
několik algoritmů využívaných běžnými vyhledávacími systémy.

Analýza absolutní četnosti
Analýza absolutní četnosti výskytu slov či sousloví v dotazu a v textu obnáší
následující postup: Při hodnocení výše shody mezi dotazem a textem rozhoduje
pouze počet výskytů. Text s nejvyšší frekvencí výskytů jednotek dotazu v
analyzovaném textu (přeloženo do běžného jazyka: klíčových slov dotazu) je
zařazen při výběru na první místa mezi relevantní texty. Nutné je ovšem použít
tzv. slovník zakázaných slov se slovy s extrémně vysokým výskytem, jakého
dosahují např. spojky či předložky.
Metodu užívají s určitými vylepšeními ve spojení s booleovskými operátory běžné
vyhledávací stroje na Internetu. Touto metodou se dosahuje vysokého koeficientu
úplnosti a velmi nízkého koeficientu přesnosti.

Analýza relativní četnosti
Analýza relativní četnosti výskytu slov či sousloví v dotazu a textu znamená
postup, kdy při hodnocení výše shody mezi dotazem a textem rozhoduje počet
výskytů klíčových slov dotazu vztažený k výskytu klíčových slov v rozsáhlém
souboru textů (např. v rozsáhlejším souboru textů, v Českém národním korpusu
apod.). Oproti předchozí metodě může nabýt významu i údaj s nízkou frekvencí
výskytu, pokud se například ukáže, že je specifický pro jistý obor či skupinu
textů. Touto metodou se zlepšuje hodnota koeficientu přesnosti, i když často za
cenu nižší hodnoty koeficientu úplnosti.

Aplikace gramatického invariantu
Gramatickým invariantem rozumíme (pravo či levostrannou) eliminaci té části
řetězce slova, který vypovídá o pádech a tvarech tohoto slova jinak řečeno,
termín odpovídá známé hvězdičkové konvenci (divokým znakům). Např. místo tvarů
banka, bankou, bankovní, bance použijeme na AltaVistě řetězec "bank or banc".
Tato metoda ovlivňuje prudký nárůst koeficientu úplnosti a prudký pokles
koeficientu přesnosti.

Metody částečné simulace gramatiky
Pomocí těchto metod řešíme především nedostatky předchozí metody a problematiku
synonymie a homonymie.
Synonymií rozumíme možnost pojmenovat určitý jev několika jazykovými výrazy.
Při vyhledávání se synonymie projevuje tím, že při zadání jednoho výrazu nejsou
vyhledány výrazy významově shodné (či podobné), ale "slovně" rozdílné (příklad:
při hledání slova kůň nám unikne výraz hřebec). Jedním způsobem řešení je
dodání slovníku obsahově podobných výrazů.
Homonymií rozumíme výskyt jednotek stejného tvaru, ale odlišného významu. Při
vyhledávání s využitím booleovských operátorů (tedy u většiny vyhledávacích
strojů) se tento jev projevuje negativně tím, že nedokáže identifikovat
syntaktické vazby mezi jednotlivými jednotkami dotazu. Např. při zadání
subřetězců dotazu VYHLEDA + INFORMAC + TEXT nedokáže odlišit dokumenty o
"vyhledávaní informací v textech" od dokumentů o "texty o vyhledávání
informací".
Formulace dotazu bez vyznačení gramatických vztahů mezi jednotlivými řetězci
způsobuje šumy, vyplývající z nesprávné interpretace. Zkušenosti však ukazují,
že nadměrné množství prvků označujících vztahy mezi jednotkami dotazu rovněž
snižuje efektivnost vyhledávání. Určitým kompromisem je aplikace některých
algoritmů částečné simulace gramatiky. Popíšeme dva ověřené přístupy:
Vyhodnocení shody mezi pořadím jednotek dotazu a pořadím jejich výskytů v
textu: Konstrukce tohoto algoritmu vychází z předpokladu, že existuje logická
vazba mezi jednotlivými jednotkami dotazu, která se promítá v jejich pořadí. Ze
shody pořadí dokumentu a dotazu lze potom odvodit, že i v dokumentu jsou tyto
jednotky ve stejném vztahu.
Vyhodnocení vzdálenosti mezi jednotkami dotazu, vyskytujícími se v textu:
Konstrukce tohoto algoritmu vychází z předpokladu, že čím více nepožadovaných
informací dokument obsahuje, tím nižší je shoda mezi dokumentem a dotazem, tj.
čím dále jsou v textu od sebe jednotky dotazu, tím nižší je vypovídací
schopnost zkoumaného dokumentu. Vzdálenosti dvou sousedních výskytů jsou měřeny
v počtu lexikálních jednotek ležících mezi nimi. Oba výše uvedené přístupy
zvyšují především přesnost vyhledávání.
Vzdálenostní operátory (proximy operators) používá např. systém Topic,
aplikující při vyhledávání v databance algoritmus firmy Verify. Operátory
Sentence, Paragraph, Near a Near/n pak vyhledají dokumenty, v nichž se hledaná
slova (nebo i slovní spojení) vyskytují v určitých maximálních odstupech a to v
libovolném vzájemném pořadí.

Sestavování rozsáhlých databází
Pro zvyšování efektivnosti práce s textovými informacemi je potřeba využít
určitých lingvistických znalostí a zákonitostí struktury textu. K získání
těchto znalostí vznikají ve vyspělejších zemích již několik desítek let pokusy
všechny lexikální jednotky jazyka shromáždit, podrobně charakterizovat a
zpřístupnit v digitální formě.
První a dnes asi největší soubor slov, tzv. Brown Corpus, začal vznikat v roce
1961. Z takových korpusů, obsahujících často stamiliony slov, lze zjistit
detailní popis slova, výši frekvencí vyskytujících se v celém korpusu nebo v
určitém oboru.
Na Internetu je přístupný další rozsáhlý korpus Worldnet vícejazyčná
elektronická lexikální databáze spravovaná Princetonskou univerzitou (http://
www.ogsci.princeton.edu/~wn/main). Tato databáze umožňuje vyhledat
nejpodrobnější informace o každém slově, uloženém v databázi. Další systémy
využívají potom výsledků dosažených výše zmíněnými nástroji k vytváření
lingvisticky náročnějších operací s texty. Sem patří např. systém Semcor
(http://sfx/semcor/doc/semcor. htm).
Podobně je na stránkách WWW dostupný i Český národní korpus
(http://uckn.ff.cuni.cz/ CZ/cnc) obsahující 23 milionů lexikálních jednotek.
ČNK, využívající příkazy jazyka CQP (Corpus Query Processor jazyk vytvořený na
Stuttgartské univerzitě), zpřístupňuje informace nejen o jednotlivém slovu, ale
vyhledá všechny výskyty slova v souslovích slovníku.
Na Internetu jsou rovněž dostupné prostředky pro lingvistické porovnávání
textů. Na adrese (http://history.furman.edu/tac
web/dualfrq.htm) se nabízí možnost vložit dva texty a zjistit míru jejich
vzájemné podobnosti. Výstupem je údaj o celkovém počtu slov obou textů, počet
výskytů slov charakteristických pro každý z nich, údaj o počtu vyskytujících se
v obou textech. Za těmito údaji následuje komparační tabulka s údaji o počtu
výskytů každého slova.
Podobný systém Pairwise Comparison (http://lsa.colora
do.edu/cgi-bin/LSA-pairwise.html) porovnává současně větší počet textů a
vyhodnocuje navíc podobnost dvojic textů jakýmsi koeficientem.

Co je to obsahová analýza
Od 30. let, kdy bylo lingvistických nástrojů úspěšně použito k analýze textů
pro válečné a později vědecké účely, se celý komplex metod práce s texty
použitých za účelem analýzy jejich latentního obsahu či sdělení nazývá metodami
obsahové analýzy. Celé půlstoletí se jednotlivci i univerzity zabývali
nalezením algoritmu, kterým by tuto intelektuálně náročnou činnost dokázali
aplikovat na počítači.
Všimněme si pro ilustraci systému TACT (Text Analysis Computing Tools), který
lze stáhnout na adrese http://www. epas.utoronto.ca:8080/cch/TACT/tact4.html.
Obsahuje 15 subsystémů a pracuje pod operačním systémem MS-DOS. Vyhodnocuje
statistiku výskytů slov i sousloví. Je multilingvální (české texty je nutné
převést do ASCII), vytváří abecední rejstřík výskytů slov, konkordance s údaji
o umístění slova v textu, a rejstřík (tzv. KWIC), umožňující zjistit výskyt
slova ve všech větách analyzovaného souboru textů.

Využití znalostí kognitivní vědy
Cesta od informací k systematicky utříděným poznatkům vyžaduje další
intelektuální práci. Poznatky z oblasti lingvistiky nám sice pomohou odstranit
nebo alespoň zmírnit některé překážky spočívající v jazykové struktuře sdělení
a bránící pochopení toho, co komunikátor zamýšlel sdělit, ale žádná fulltextová
databáze v přirozeném jazyku, i kdyby byla sebepodrobněji hypertextově
provázána, "si nemůže stát za tím, co obsahuje", protože není inteligentní
natolik, aby obsahovala skutečné znalosti, které jsou v ní uloženy a
předpokládány za slovy sdělení.
Jak může počítač např. vědět, co ve větě "Železniční zřízenec seděl u stolu",
znamená "železniční zřízenec", "stůl", "sedět". Stačí větu obměnit na
"Eiznboňák pracoval" a žádný systém mezi nimi podobnost nenalezne. K tomu
nestačí jen připojit ke každému slovu synonyma apod., k tomu je nutné dodat
zcela nový subsystém znalostí, který umožní porozumět celé struktuře sdělení.
Podívejme se např. stručně na strukturu systému CYC (http://
www.cyc.com/applications.html). Kromě slovníku, obsahujícího podstatné
informace o každém slově analyzovaného textu, musí systém obsahovat syntaktický
analyzátor, který obsahuje pravidla, na jejichž základě vstupují slova do
kontextu s ostatními slovy věty.
Sémantický analyzátor poskytuje znalosti, inferenční pravidla, vztahující se ke
slovům analyzovaného textu. Při analýze velkých souborů dat musí např. pomocí
těchto pravidel dokázat odvodit, že "pracovat" a "sedět u stolu" jsou činnosti,
které mohou znamenat totéž a že "eiznboňák" a "železniční zřízenec" jsou
významově podobné.
Znalosti se však nedají do databáze soustředit tak, že je prostě odborník do
báze uloží. Tímto způsobem lze realizovat znalostní databáze pouze pro velice
dobře probádané a specializované obory (medicína, právní vědy). Obtížnější je
to u databází, soustřeďujících veliké množství rozmanitých poznatků takovým
případem je např. právě Internet. V této oblasti postrádáme jednoznačné
definice pojmů, jednou provždy uzavřené poznatky, terminologickou průhlednost.
Univerzální znalostní databáze použitelná např. pro inteligentní vyhledávací
systémy je v současné době obtížně splnitelná. Jednou z realizovatelných cest k
dosažení vyšší relevance při práci s rozsáhlými texty je využití kolektivní
inteligence ukryté u samotných uživatelů a odvoditelné z jejich (dlouhodobě
sledovaného) chování. S využitím alternativních vyhledávacích strategii a
rychlých systémů představují tyto přístupy spolehlivou pomůcku. Protože podobné
algoritmy výsledně zužují proud přicházejících informací, označují se zpravidla
jako filtrační systémy.
Zatímco podstatou kontaktu webového světa s uživatelem je dodání dokumentu na
konkrétní adresu a následné úplné zapomenutí uživatelova požadavku, filtrační
systémy naopak informace o uživatelově informační potřebě soustřeďují,
analyzují a využívají těchto znalostí k přesnějšímu vyhledávání.
Filtrační systémy jsou tedy jakýmisi knihovnami naruby. Zatímco v klasické
knihovně hledají uživatelé dokumenty, filtrační systémy hledají k soustředěným
dokumentům uživatele. Příkladem jsou např. systémy:
Wisewire (http://www.wisewire
corp.com/indexprod.html) a Letizia
(http://lieber.www.media.mit.edu/people/lieber/Lieberary/Letizia/Letizia.html).
Podívejme se nyní na oba systémy podrobněji.

Systém Wisewire
Wisewire obsahuje následující subsystémy:
Dokumentační subsystém, který soustřeďuje dokumenty ze sítě WWW, FTP apod.
Filtrační server, který je uspořádán do 6 vrstev.
1. Konceptualizace uskutečňuje jakousi prvotní autoindexaci. Rozdělí dokumenty
podle výskytů klíčových slov, jmen autorů, typů zdrojů, data vzniku apod.
Subsystému Learning Agens (zde ve funkci učícího se systému) přiřazuje
zjištěným jednotkám údaj o jejich relevanci vzhledem k potenciálním uživatelům.
2. Prvotní filtr (prescreen) odstraní dokumenty, které neodpovídají požadavkům.
3. Kategorizace identifikuje dokumenty na základě hrubších kategorií
vytvořených na základě uživatelských potřeb. Jeho činnost kontroluje samoučící
se subsystém.
4. Zájmové skupiny vrstva, která soustřeďuje dokumenty do skupin podle
vytipovaných zájmových skupin.
5. Personalizace upřesňuje strukturu vyhledaných dokumentů podle jemnějších
individuálních hledisek.
6. Skupinové hodnocení vrstva kompilující hodnocení dokumentů všech uživatelů
(soustředěné v samoučícím se subsystému), analyzuje zjištěné údaje, aby z nich
vytvořila rozpoznatelné vzorce, na jejichž základě je systém schopen doporučit
dokument ohodnocený jednou skupinou uživatelů jiným uživatelům.
Uživatelský interface je v neustálé interakci s uživateli. V tomto subsystému
dochází k přiřazení určitého dokumentu (skupiny dokumentů) konkrétnímu
uživateli.
Samoučící se subsystém uživatel má při zobrazení relevantního dokumentu
vybraného na základě analýzy dokumentu (filtrační subsystém) a analýzy
uživatele (uživatelský interface) na obrazovce možnost ohodnotit stupeň
relevance dokumentu vzhledem ke svým potřebám. Tento údaj potom využívá
samoučící se subsystém k analýze a kontrole v předchozích subsystémech.

Další systémy
Jiný přístup k filtraci představuje systém Letizia.
Tento systém lze charakterizovat jako inteligentního asistenta, pomocníka
uživatele při práci s WWW. Uživatel prostě pracuje např. s obvyklými
vyhledávacími stroji a Letizia pracuje souběžně s ním a to tak, že na základě
analýzy formulace dotazu a celkového uživatelského chování anticipuje jeho
možné informační chování a volí alternativní vyhledávací strategie a
rozmanitější cesty k uspokojení požadavku. Proti klasickým znalostním systémům,
které obsahují zpravidla predefinované struktury, vytváří Letizie své závěry
teprve v interakci s uživateli a výsledky jejího průzkumu sítě jsou proto
rychlejší a poskytují relevantnější výběry než běžné vyhledávací stroje.
Jakýmsi přechodovým článkem mezi systémy Wisewire, Letizia je systém Lets
Browse (URL viz Letizia), který nepracuje pouze s jedním uživatelem, ale
soustřeďuje a analyzuje informační potřeby a zájmy velkého počtu uživatelů.
Dalším typem inteligentního systému využívajícího filtrace je přístup založený
na tzv. ontologiích. Ontologie ve své úplné formě představují trend znalostních
systémů spočívající ve snaze predefinovat strukturu znalostí obsahující
stromově uspořádanou strukturu tříd znalostí a definovaných relací mezi těmito
třídami. V těchto strukturách by byly uchovány informace o obsahu dokumentu,
autorech, druhu dokumentu. Pro snazší orientaci ve WWW stránkách by bylo možné
metavýrazy jazyka ontologií přiřadit do záhlaví WWW stránky, čímž by se hledání
zefektivnilo. Celá problematika ontologií je na první pohled poměrně obtížně
stravitelná. Přinejmenším určité jasno by však mohla vnést poznámka, že logika
uspořádání je do jisté míry podobná jazykům a standardům typu XML a DTD. O
ontologiích se lze dozvědět podrobnější informace na
http://home.pinknet.cz/~simek/vse/d9807.html nebo na http://wwwksl.stanford.
edu/kst/what-is-anontology.html.

Inteligentní systémy porozumění textu
Eliminace nepodstatných informací z textu a extrahování jen těch obsahově
důležitých představuje zatím intelektuálně nejnáročnější operace, které můžeme
na výpočetních systémech simulovat.
Algoritmizace procesu porozumění textu a jeho následná automatická komprimace
či interpretace naráží na problémy spojené se složitostí přirozeného jazyka.
Metody redukce textu se liší dle požadavků kladených na výsledek zhuštění. Má-
li text redukovat počet slov a neztratit přitom smysl, musíme zpravidla použít
kombinaci následujících metod:
Metody statistické, založené na předpokladu, že lexikální jednotky s vyšší
frekvencí výskytu jsou současně nejzávažnějšími nositeli obsahu.
Metody syntaktické kritéria pro výběr obsahově nejzávažnějších úseků textu se
stanoví na základě porovnání syntaktických struktur textu se slovníkem
vzorových struktur.
Metody sémantické při výběru obsahově závažných prvků textu se rozhoduje na
základě analýzy sémantických struktur textu. Opírají se zpravidla o znalostní
databáze.

Podívejme se blíže na 2 systémy automatického zpracování a komprimace obsahu:
Data Hammer Intranet (DHI) a Intelligent Miner for text.

Data Hammer Intranet
Data Hammer Intranet (DHI, viz http://www.glu.com/hammer) je program, který
automaticky sumarizuje a komprimuje texty dokumentů v 16 jazycích, mezi nimi
také v češtině. Pracuje rychlostí 10 stran/s (při frekvenci 150 MHz).
Proti obdobným programům, které jsou schopny vybírat pouze celé, obsahově
významné věty a skládat je k sobě, je program DHI "inteligentní", umožňuje
sestavit smysluplný text, uchovává neporušenou jeho původní strukturu.
Používá algoritmus společnosti Glucose Development Corporation, tzv. MTT
(Microword Tree Trimming) opírající se o subdisciplínu označovanou jako
Transfer Theory, jejíž podstatou je porozumění způsobu přenosu informace mezi
komunikujícími.

9 3112 / pah









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.