Jak v textu oddělit zrno od plev

Automatické vytváření abstraktů není bez problémů Pojem "abstrakt" je v odborné informační činnosti považován za ...


Automatické vytváření abstraktů není bez problémů
Pojem "abstrakt" je v odborné informační činnosti považován za tak důležitý, že
je dokonce definován speciální českou státní normou (ČSN 01 0194). V tomto
článku se podíváme na možné způsoby automatického vytváření abstraktů. Jak
rozhodnout, které části textu jsou relevantní a které ne pouze za pomoci
softwarových nástrojů? Na jaké problémy přitom naše úsilí narazí?
V obecné teorii zpracování informačních fondů (která vznikla dávno před
počítači) je obvykle abstrakt (anglicky abstract, v češtině se synonymem
"referát") definován jako jeden z možných výstupů procesu nazývaného
"informační analýza dokumentu". Navíc se v "klasické" (předpočítačové) podobě
této teorie doporučuje minimálně jako jedna možná cesta při zařazování
dokumentu do informačního fondu (knihovny ap.) nejprve vytvořit jeho abstrakt,
a s využitím tohoto abstraktu teprve dokument indexovat.
Je jasné, že abstrakt vytvořený důsledně podle všech požadavků vyjádřených v
normě by byl mimo jiné optimálním východiskem pro indexování dokumentu jeho
tvorba je ovšem odbornou intelektuální činností. Na druhé straně je pravda, že
automatickému indexování můžeme při možnostech současných technologií klidně
podrobovat přímo celé texty dokumentů, což při relativní jednoduchosti
existujících metod automatického indexování vlastně znamená náhradu kvality
kvantitou zpracování.
To ale neznamená, že by se při soudobé úrovni automatizace celého informačního
procesu nějak významně snižovala potřeba abstraktů. Abstrakt zůstává (a jistě
ještě dlouho zůstane) důležitým sekundárním informačním pramenem pro
potenciálního zájemce o primární dokument pramenem, který by měl především
usnadnit člověku rozhodnout se o tom, zda má pro něj smysl studium původního
dokumentu.

Možnost automatizace
V jiných oblastech zpracování textových dokumentů např. v oblasti automatizace
indexování už bylo poměrně přesvědčivě demonstrováno, že lidské duševní procesy
není vždy nutno v počítači plně kopírovat není třeba nutné (a vlastně ani
možné) dosáhnout úplného porozumění obsahu slov a vět. Úspěšné metody mohou být
založeny na tom, že se v textu mechanicky detekují slova z určité množiny,
určité koncovky apod. Bylo by samozřejmě žádoucí, kdyby se podařilo podobným
způsobem automatizovat i proces referování, respektive sumarizace.
Zásadní rozdíl mezi úlohami indexování a referování by mohl být formulován
velice jednoduše: může-li být cílem automatického indexování extrahovat (resp.
formálně odvodit) z textu vhodný počet slov či sousloví, která nejlépe
vystihují, o čem text je, pak cílem automatického referování může být
extrahovat (resp. opět formálně odvodit) z textu vhodný počet vět, které
nejlépe vystihují, co text přináší svému potenciálnímu čtenáři.
Naprostá většina fungujících a popsaných systémů použitelných k
automatizovanému referování (zpravidla označovaných jako "automatic
summarization tools") vybírá ze zpracovávaných textů celé věty, které lze z
nějakého hlediska ohodnotit jako nejvýznamnější. Obecně se sice uznává, že
použít jen části některých vět primárního dokumentu k sestavení nových vět
abstraktu by bylo v řadě situací výhodnější, jenže to by vyžadovalo provádět
syntaktickou analýzu a syntézu na úrovni srovnatelné například se systémy plně
automatického překladu, čemuž
se obvykle autoři sumarizačních nástrojů snaží vyhnout.
Jádrem konkrétního systému je tedy zpravidla určitý způsob ohodnocování vět
textu, které by mělo obrážet jejich důležitost. Jestliže toto ohodnocování nemá
vycházet ze syntaktické struktury věty, pak prakticky nezbývá, než aby
vycházelo vedle polohy věty ve struktuře dokumentu z hodnocení slov, ze kterých
se věta skládá. Tak se nakonec algoritmy automatického referování velmi
sbližují s algoritmy automatického indexování: abstrakt se v podstatě sestavuje
z těch vět primárního dokumentu, které nejvíce přispívají k vytvoření
selekčního (indexního) obrazu dokumentu. I takto zjednodušený přístup k
referování může dávat celkem (po malých revizích) použitelné výstupy.

IBM Summarization tool
O tomto nástroji bylo zveřejněno, že zpracovává text ve dvou hlavních krocích:
Ohodnocení slov: Tento krok se opírá o pomocný modul jménem Feature Extraction
tool a o předem (pomocí stejného modulu) připravený referenční slovník,
charakterizující slova (příp. rozpoznané víceslovné termíny) jejich průměrnou
frekvencí v nějaké reprezentativní kolekci textů z daného oboru. Slovům (resp.
termínům) vyskytujícím se v právě zpracovávaném textu alespoň dvakrát je
přiřazena váha zohledňující polohu jejich výskytů (nadpisy, titulky obrázků,
tabulek ap.) a poměr jejich frekvence ve zpracovávaném textu vůči frekvenci
udávané referenčním slovníkem. Přitom je pro nenulovou váhu požadováno, aby buď
alespoň jeden výskyt hodnoceného termínu byl "víc než obyčejný" (čili v některé
zvlášť hodnocené "zóně" textu), nebo aby jeho frekvence ve zpracovávaném textu
byla nadprůměrná.
Odhodnocení vět: Každé větě je přiřazena váha zohledňující
váhy přiřazené v předchozím kroku slovům, ze kterých se skládá (pokud vůbec
některá z nich byla shledána "významnými"),
vzdálenost věty od začátku odstavce, ve kterém se nachází,
vzdálenost odstavce od začátku celého textu,
polohu věty na konci odstavce, přesahuje-li délka odstavce určitou mez,
polohu odstavce na konci celého textu, přesahuje-li délka celého textu určitou
mez.
Uživatel systému může předem přiřadit různé koeficienty významnosti jednotlivým
zde uvedeným kritériím.
Abstrakt je nakonec sestaven z určitého počtu vět (stanoveného buď konstantou,
nebo procentuálně vzhledem k délce celého textu) s nejvyšší váhou.

Souvislosti vět
Metoda automatického referování založená na měření obsahových souvislostí mezi
větami vychází z pojmu obsahové souvislosti mezi větami. Formální definice
říká, že dvě věty mají obsahovou souvislost, jestliže se v nich opakuje stejný
odborný pojem. Metoda sama je postavena na předpokladu, že v textu jsou
nejvýznamnější ty věty, které mají nejvíc obsahových souvislostí s jinými
větami. Tento předpoklad je vlastně jen poněkud méně obvyklou formulací
samozřejmého faktu, že nejvýznamnější jsou věty, ve kterých se vyskytují,
případně přímo kumulují "klíčové pojmy textu" a ty se nejspíše poznají podle
toho, že se v textu na různých místech opakují.
Realizace metody spočívá ve zdánlivě naprosto triviálních krocích:
Každé větě dokumentu se přiřadí její "funkční váha" neboli počet jiných vět
dokumentu, se kterými má tato věta obsahovou souvislost. (Jak ovšem uvidíme
vzápětí, tento krok ve skutečnosti zdaleka není tak triviální, jak na první
pohled vypadá.)
Abstrakt v podstatě tvoří věty s nejvyšší "funkční váhou" počet vybraných vět
je předem stanoven buď jako konstanta, nebo jako funkce délky dokumentu (poměr
obou délek se pak nazývá "koeficient komprese").
Vraťme se nejprve k definici obsahové souvislosti. Jak se pozná, že se ve dvou
větách "opakuje stejný pojem"?
Základní způsob vnějšího projevu je samozřejmě opakování stejného slova (to se
přirozeně nemusí opakovat ve stejném tvaru, čili je nutná lemmatizace převod
různých tvarů slov na slovo základní), sledovat tento projev ovšem zdaleka
nestačí.
O tomtéž jevu lze hovořit různými slovy pocházejícími od stejného základu
(např. "teplo", "tepelný") je tedy třeba do procesu zjišťování obsahových
souvislostí zapojit více morfologie než jen jednoduchou lemmatizaci (je třeba
rozpoznávat kořeny slov v různých odvozeninách a jejich tvarech).
O tomtéž jevu lze však hovořit i pomocí synonym nebo střídavě pomocí
obecnějších a konkrétnějších termínů.
Posledním způsobem vyjadřování, který je třeba vzít v úvahu, je odkazování na
předchozí věci pomocí určitých zájmen a příslovcí (jako "jeho", "to", "zde"
apod.). Problém je, že "plnovýznamový" výraz, ke kterému se zájmeno nebo
příslovce vztahuje, se může nacházet teoreticky v kterékoli předcházející větě,
ale také ve stejné větě jako "zástupné" zájmeno. Tento problém je bez
porozumění textu možné řešit pouze velmi obtížně.

Postup v praxi: Matice souvislostí
Celkový postup automatického zpracování dokumentu by mohl být přibližně
následující:
Vytvoří se indexový soubor terminologických prvků nad větami dokumentu. Z
tohoto indexového souboru musejí být pečlivě vyloučena všechna pro daný účel
bezvýznamná slova, tj. slova, jejichž opakované výskyty by byly z hlediska
zjišťování obsahových souvislostí zavádějící předložky, spojky, číslovky,
pomocná slovesa, kvantifikátory (slova jako "všechny", "některé", "často" ap.)
a obecné kvalifikátory (jako "velký", "významný", "rozhodně" apod.).
Všechna hesla, která jsou jen morfologickými variacemi na stejné téma (jako
např. "teplo", "tepla", "tepelný", "tepelně"), se spojí pod určitými pravidly
definovanou základní variantu (např. "teplo").
Všechna hesla, která jsou podle slovníku synonymní nebo mezi nimi existují
hierarchické vztahy, se spojí vždy pod hierarchicky nejvyšší jednotku.
Zvláštním způsobem (pokud ovšem vůbec máme nějaký k dispozici) se zpracují
zástupná zájmena a slova plnící obdobnou funkci.
Hesla, která po všech těchto úpravách indexového souboru odkazují jen na jednu
větu dokumentu, lze zrušit.
Na základě indexového souboru se vytvoří binární "souvislostní matice"
ukazující, mezi kterými větami jsou obsahové souvislosti podle naší definice
(čtvercová matice zaplněná jedničkami a nulami podle toho, zda příslušná
dvojice vět vykazuje obsahovou souvislost). Spočítáním jedniček pro jednotlivé
věty získáme "funkční váhy" vět dokumentu.
Vybereme nejlépe hodnocené věty (volba jejich počtu viz výše) a z nich
sestavíme abstrakt samozřejmě nikoliv v pořadí podle významnosti, ale podle
pořadí vět v původním textu.

Další zlepšení
Existují doporučení umožňující výše popsanou metodu v několika ohledech
optimalizovat.
Pravidlo prázdného oddílu: Je-li text dlouhý a přitom rozdělený do oddílů, může
k vytvoření vyváženého (a tedy plnohodnotného) abstraktu přispět, nevybírají-li
se prostě věty s nejvyššími vahami z celého textu, ale nějak definovaný počet
vět s nejvyššími vahami z každého oddílu.
Z abstraktu může být užitečné vyloučit věty, které (jakkoli by měly vysokou
váhu) nesplňují některé intuitivně odhadnutelné formální náležitosti např. věty
příliš krátké.

Referát a anotace podle normy
(výtah z ČSN 01 0194)
Referát je zkrácený výklad obsahu dokumentu (nebo jeho části) s hlavními
věcnými údaji a závěry, který zdůrazňuje nové poznatky a umožňuje rozhodnout se
o účelnosti studia původního dokumentu...
Referát se vypracovává zpravidla podle této osnovy:
1.Téma, předmět (objekt), charakter a cíl práce...
2.Použité metody...
3.Výsledky práce...
4.Závěry (hodnocení, návrhy), přijaté nebo zamítnuté hypotézy...
5.Oblast využití...
Výklad obsahu... musí být stručný a přesný. Používá se syntaktických konstrukcí
jazyka vědeckých a technických dokumentů bez složitých gramatických konstrukcí.

Abstrakt, anotace, referát...
Pojem abstrakt se více či méně překrývá s dalšími "výběry" z textu. V příslušné
normě (ČSN 01 0194) je dále definována také anotace v podstatě o něco
jednodušší (stručnější) útvar než abstrakt (referát), schopný v určitých
situacích plnit podobnou úlohu. Další termín, se kterým se v této souvislosti
často setkáváme, je sumarizace. Ačkoli účel sumarizace a obsah jejího výsledku
je teoreticky definován poněkud odlišně, v automatizační praxi se nejčastěji
význam referování (tedy vytváření abstraktu) a sumarizace nerozlišuje. Souhrnně
by pak bylo možné všechny nástroje anotování, referování či sumarizace nazývat
také nástroji obsahové komprese dokumentů.

Abstrakt v praxi: Stvoření světa
Jako příklad si ukážeme "patnáctiprocentní" abstrakt (resp. resumé) 1. kapitoly
První knihy Mojžíšovy (Genesis) vytvořený systémem NetSumm:
I řekl Bůh: "Buďte světla na nebeské klenbě, aby oddělovala den od noci! Budou
na znamení časů, dnů a let. Ta světla ať jsou na nebeské klenbě, aby svítila
nad zemí." ... I řekl Bůh: "Hemžete se vody živočišnou havětí a létavci létejte
nad zemí pod nebeskou klenbou." ... I řekl Bůh: "Učiňme člověka, aby byl naším
obrazem podle naší podoby. Ať lidé panují nad mořskými rybami a nad nebeským
ptactvem, nad zvířaty a nad celou zemí i nad každým plazem plazícím se po zemi."
K tomu se sluší dodat několik poznámek. Sami autoři uvádějí, že tato ukázka
nemá ani tak demonstrovat schopnosti jejich systému, jako spíše umožnit každému
zájemci o podobné technologie udělat si vlastní představu, na jaké druhy textů
jsou vhodné. Originální ukázka je přitom v angličtině. Zde uvádíme český
ekvivalent podle ekumenického překladu Bible z r. 1985; tři tečky označují
vypuštěné části původního textu. V anglické verzi ovšem každý vybraný úsek
představoval jedno souvětí. Rozdělení textu ve zde použitém českém překladu na
více samostatných vět by mohlo způsobit, že by "referát o počátku stvoření
světa" pořízený stejnou metodou z odpovídajícího českého textu vypadal jinak.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.