Potíže s automatickým překladem

Jak se lidský jazyk vzpírá počítačům Existuje celá řada počítačových programů, jež se snaží pomoci při překl...


Jak se lidský jazyk vzpírá počítačům
Existuje celá řada počítačových programů, jež se snaží pomoci při překladu mezi
přirozenými jazyky. V Computerworldu 17/2002 jsme přinesli test překladačů,
které jsou zdarma nabízeny na internetu. Nejedná se samozřejmě o aplikace
jediné. Pokusy o automatický překlad jsou na světě již přibližně půl století,
přesto však stále narážejí na řadu obtíží. Výsledkem jsou často úsměvné
perličky, které automatické překladače generují. Nejde však pouze o neschopnost
či nedbalost tvůrců příslušného softwaru, řada překážek má totiž charakter
principiální. Pojďme se podívat na několik hlavních problémů s automatizovaným
překladem...

Překlad slov
Nahlédnete-li do libovolného tištěného překladového slovníku alespoň střední
velikosti, snadno zjistíte, že je spíš vzácnou výjimkou, aby slovo jednoho
jazyka mělo pouze jediný možný překlad do jazyka druhého. Jeden z důvodů tohoto
stavu by se dal formulovat tak, že slova různých jazyků jsou různě polysémní
(mnohovýznamová).
Například anglické sloveso store označuje v obecném jazyce činnost, k jejímuž
popisu můžeme v češtině použít slovo shromažďovat nebo skladovat. V oblasti
počítačů má ale obvykle jiný význam, přesněji asi jeden ze dvou jiných významů:
prvnímu z nich odpovídá v češtině vyjádření ukládat do paměti, druhému
uchovávat v paměti. Navíc slovo store v angličtině může fungovat nejen jako
sloveso, ale i jako podstatné jméno. Pak jeho český ekvivalent může být
například zásoba, sklad, skladiště anebo (v počítačové oblasti) paměť.
Vezmeme-li to ovšem nyní z druhé strany, např. české slovo paměť je polysémní
zcela jiným způsobem. Může označovat paměť počítače anebo paměť člověka či
lidstva. V tom druhém významu by mu odpovídalo jedině anglické slovo memory.
Ale to je samo zase trochu jinak polysémní může sice označovat paměť lidskou i
počítačovou, ale taky jev, který se česky nazývá vzpomínka.
Rozlišení konkrétního významu slova v daném kontextu lze do jisté míry
automatizovat už tím, že se rozpozná, do jaké tematické oblasti text patří
převládají-li v něm celkově např. specificky počítačové termíny, pak lze
předpokládat, že i slova jako store se budou v tomto textu vztahovat spíše k
počítačům. Podobně postupuje například překladový systém Systran.
Uživatel systému automatického překladu také může před vlastním překladem
specifikovat (nejlépe výběrem z nějaké předem sestavené nabídky), do jakého
tematického okruhu by text nejspíše zařadil sám. Svým dílem zde může přispět i
gramatická analýza jednotlivých slov, tedy analýza jejich tvarů neboli
morfologická analýza. Například z tvaru stored v anglickém textu lze vyvodit,
že jde o sloveso store a ne o stejně znějící podstatné jméno.
Někdy ovšem problém nejednoznačnosti slovníkových ekvivalentů nespočívá ani tak
v polysémii jako spíš v kombinaci jisté vágnosti významu jednotlivých slov a
nestejné rozlišovací schopnosti jednotlivých jazyků vzhledem k realitě.
Jako příklad může posloužit anglické sloveso know a jeho dva (kontextově
podmíněné) české ekvivalenty, vědět a znát. O anglickém slově se v tomto
případě těžko dá tvrdit, že by mělo dva významy. To jen čeština jemněji
rozlišuje, ostatně pro některé konkrétní situace až zbytečně: věty "vím o
jednom řešení" a "znám jedno řešení" jsou v podstatě synonymní; na druhé straně
mezi větami "vím o vás" a "znám vás" je dost podstatný významový rozdíl.
Správný překlad anglického know tedy musí vycházet z nějakého rozboru struktury
celého sdělení, ve kterém je toto slovo použito. Uvažme ještě jeden příklad.
Anglické sloveso take lze v určitých spojeních překládat českým vzít si. Jedním
z takových spojení je take a taxi, ne však už take a bus! Někdy tedy zřejmě
volba správného překladu slova předpokládá nejen přesné určení všech jeho
syntaktických vazeb, ale i určité sémantické zatřídění některých konkrétních
slov v těchto vazbách. Konečně někdy může nastat i taková situace, kdy určité
slovo nelze zaručeně správně přeložit z jazyka A do jazyka B bez určité věcné
znalosti popisované reality.
Představte si, že je třeba přeložit z češtiny do ruštiny text popisující
nějakou věc slovem modrý. Ruština nemá přesný ekvivalent tohoto českého
přídavného jména má jen dvě různá přídavná jména s přesnějšími významy: goluboj
("světle modrý, blankytně modrý") a sinij ("tmavomodrý"). Pokud systém
automatického překladu nebude disponovat takovými obecnými znalostmi
popisovaných předmětů, aby dokázal rozhodnout, je-li "ta modrá věc" ve
skutečnosti spíše světlá nebo tmavá, nebude mít jinou možnost než vložit do
výstupu alternativní formulaci "goluboj/sinij".

Gramatické tvary
Tvary slov v překladu pochopitelně nemohou prostě obrážet tvary slov originálu
už proto, že jazyky mají různé arzenály gramatických tvarů.
Například v českém textu je třeba uvést každé podstatné jméno do nějakého pádu,
i když se jedná o překlad z angličtiny, kde žádné pády nejsou. Podobně české
sloveso má zpravidla dokonavý nebo nedokonavý vid, což je další kategorie,
kterou angličtina nezná. Naopak při překladu českého slovesa v minulém čase do
angličtiny je třeba rozhodnout mezi mnoha anglickými možnostmi (předpřítomný,
minulý, předminulý, vše navíc ve variantě prosté či průběhové). I tvar každého
slova, který je třeba při plně automatickém překladu vysoké kvality vytvořit,
obecně může tedy záležet na gramatické struktuře celé věty.
Co vlastně určuje syntaktickou strukturu věty? Základem pro rozpoznání
syntaktické struktury je rozpoznání kombinací určitých slovních druhů v
určitých gramatických tvarech, případně (to je pro některé jazyky důležitější,
pro jiné méně důležité) v určitém pořadí. Například nachází-li se v české větě
v blízkosti slovesa jedno podstatné jméno v 1. pádě a jedno ve 4. pádě, obvykle
můžeme to v 1. pádě označit jako podmět a to ve 4. pádě jako předmět.

Syntaktické struktury
Rozpoznání skutečné gramatické struktury určitého spojení více slov je často
objektivně problematické a nemusí dokonce jít ani o celou větu.
Vezměme si jako příklad anglický název organizace World Intellectual Property
Organization (WIPO). Odkud se vlastně bere, že správný český překlad je Světová
organizace duševního vlastnictví, a ne třeba Organizace světového duševního
vlastnictví nebo Světová duševní organizace vlastnictví? Z gramatické formy v
angličtině to není jednoznačné. Vyloučit alternativní interpretace by znamenalo
usoudit, že "světové vlastnictví", resp. "duševní organizace" není smysluplné
slovní spojení. To ovšem není pravda. Fakt, že plné znění názvu WIPO má
syntaktickou strukturu odpovídající správnému českému překladu, vyplývá v
podstatě jen z toho, že víme, co WIPO je.
Jiný zajímavý příklad demonstrující obdobný problém představuje anglická věta:
The spaceship photographed Seattle flying to Mars.
Správných nebo alespoň potenciálně správných překladů této věty do češtiny může
být více, každopádně jedním z nich je například: Kosmická loď během letu k
Marsu fotografovala Seattle. Většina dnešních systémů automatického překladu by
však pravděpodobně vyprodukovala tento výstup: Kosmická loď fotografovala
Seattle letící k Marsu.
Pro lidského čtenáře je to evidentní nesmysl, ale čistě gramatická analýza
anglické věty takovou interpretaci umožňuje! Logicky správné rozhodnutí, že
fráze flying to Mars nemůže doplňovat jméno Seattle, lze realizovat zase jen s
využitím věcné znalosti popisované reality v tomto případě asi takové, že
Seattle je město, tudíž těžko mohlo letět...

Odlišnosti slovosledu
Různé jazyky mají různá obecná slovosledná pravidla. Například v angličtině, v
němčině, v ruštině a v češtině (s poměrně malým rozsahem výjimek) se klade
přídavné jméno před podstatné jméno, které rozvíjí, v románských jazycích
naopak (opět s malým rozsahem výjimek) za ně. V německých vedlejších větách je
zpravidla určitý slovesný tvar až na konci, v hlavních větách by naopak měl být
vždy jako druhý větný člen ale na konec věty se přesunují tzv. odlučitelné
předpony. V turečtině je v každé normální větě (dokonce bez rozdílu mezi větami
oznamovacími a tázacími) sloveso až na konci, v irštině naopak věty zpravidla
slovesem začínají. Takovéto odlišnosti však představují jen tu nejjednodušší
část celé problematiky slovosledu. Podstatně náročnější problém spočívá v tom,
že různé jazyky vyjadřují pomocí slovosledu různé významové kategorie. Ukažme
si to opět na konkrétním příkladu. Nechť má být do češtiny přeložena tato
anglická věta: A fully automatic system has been used for the translation.
Poměrně překvapivě, nicméně logicky naprosto jednoznačně překlad zachovávající
původní slovosled, tedy "Plně automatický systém byl použit pro překlad", není
správný! Skutečně ekvivalentní věta v normální češtině zní: "Pro překlad byl
použit plně automatický systém."
Proč je tomu tak? Protože anglický slovosled vychází z anglického pravidla
"napřed podmět, pak sloveso, pak všechno ostatní", zatímco český slovosled je v
tomto smyslu volný, ale co naopak standardně reflektuje a vyjadřuje, je
uspořádání "od něčeho daného k něčemu novému". A "dané" (téma sdělení) je v
tomto případě to, co má v angličtině určitý člen, kdežto výraz s neurčitým
členem je zřejmě jádrem sdělení.
Obecně ovšem k rozhodnutí o správném slovosledu českého překladu nestačí ani
analyzovat význam určitých a neurčitých členů v anglickém textu. Co je
například zcela správným překladem této anglické věty: You may speak English in
Canada?
Každý z následujících dvou českých překladů sděluje v češtině něco trochu
jiného, a není tedy jedno, který má být v určité konkrétní situaci použit:
- V Kanadě můžete mluvit anglicky.
- Anglicky můžete mluvit v Kanadě.
Někdy je nutno vzít v úvahu, co už bylo zmíněno v předchozích větách a co je v
právě překládané větě skutečně nové (příp. kontrastní) neboli je nutno použít
informace z nadvětného kontextu. Náš poslední příklad bude zřejmě vyžadovat 1.
variantu překladu, jestliže předchozí věta byla: You need not learn French.
(Nemusíte se učit francouzsky.) Naopak k volbě 2. varianty překladu by měla
přispět tato předchozí věta: English is of no use here. (Angličtina je tu
nepotřebná.)

Co s idiomy?
Idiomem se obvykle nazývá takové slovní spojení, jehož význam jako celku
neodpovídá jeho gramatické stavbě z jednotlivých slov. Příkladem může být třeba
český výraz vzít nohy na ramena, resp. jeho anglický významový protějšek take
to one's heels (doslova "vzít do svých pat").
U těchto výrazů nemá žádný smysl při překladu pátrat po jejich vnitřní
gramatické struktuře. Důležité je rozpoznat v textu toto ustálené spojení jako
celek (samozřejmě ovšem v libovolném gramatickém tvaru, např. "vezmu nohy na
ramena", "vzali byste nohy na ramena" apod.) a jako celek je přeložit
ekvivalentním slovním spojením cílového jazyka (v odpovídajícím gramatickém
tvaru). K tomu je potřebný speciální slovník idiomů. Pokud jde o gramatické
tvary, problém je obdobný jako u jednotlivě překládaných slov.
Odborné termíny
Zajímavé je, že z hlediska překládání se velmi podobně "klasickým" idiomům
chovají i mnohé víceslovné odborné termíny: v různých jazycích mívají
ekvivalentní termíny naprosto odlišnou vnitřní gramatickou stavbu a mohou se
skládat ze zcela odlišných slov.
Například český termín vačkový hřídel v hlavě válců z oblasti konstrukce
spalovacích motorů je ekvivalentem mnohem jednoduššího anglického výrazu
overhead camshaft. Aby se ale nezdálo, že jen angličtina dokáže být v technické
řeči stručná, můžeme uvést i opačný příklad. Českému termínu královský hřídel
(ze stejné technické oblasti) odpovídá v angličtině vertical bevel drive shaft.
Překlad podobných odborných termínů by zřejmě měl být řízen obdobnými
mechanismy jako překlad idiomů.

Zájmena
Na první pohled by se mohlo zdát, že překládání zájmen není o nic složitější
než překládání jiných druhů slov: někdy se objeví už zmíněný problém nestejné
rozlišovací schopnosti dvou jazyků, takže např. u anglického they nebude snadné
určit, kdy má český překlad být oni, kdy ony a kdy ona (jako tvar středního
rodu, který většina dnešních Čechů už vlastně ani nezná), ale např. anglickému
he odpovídá jednoznačně české on, anglickému she české ona a anglickému it
české ono. Podle slovníku to tak vypadá, ovšem při bližším pohledu zjistíme, že
to tak vůbec není. Podívejme se na tuto anglickou větu: You must unlock the
door before you go through it. Správný překlad do češtiny je: Musíte dveře
odemknout, než jimi projdete. Ekvivalentem anglického zájmena it je v daném
kontextu české zájmeno ony protože jde o dveře. Podstata problému, který se
týká specificky zájmen třetí osoby, ale také přivlastňovacích zájmen od nich
odvozených, je to, že tato zájmena vlastně jako by neměla žádný opravdu
samostatný význam, resp. jejich samostatný význam je čistě gramatický: označují
stejnou entitu jako nějaké jiné slovo v kontextu. Se slovem, se kterým zájmeno
označuje stejnou entitu (neboli koreferuje), se obvykle shoduje v některých
gramatických náležitostech (např. v čísle a rodě). Existují situace, kdy
správné rozpoznání koreference zájmena vyžaduje uplatnění určitého věcného
předpokladu o popisované realitě. Příkladem může být souvětí, jehož anglická
předloha byla publikována Yorickem Wilksem v r. 1979:
Vojáci stříleli na ženy, několik jsem jich viděl upadnout.
Rozpoznat koreferenci zde může být skutečně klíčové: pokud by mělo být toto
souvětí překládáno např. do francouzštiny, přicházely by v úvahu dva různé
ekvivalenty českého zájmena "jich" jeden rodu mužského ("eux"), druhý rodu
ženského ("elles"). Každý člověk na první pohled rozumí, že ten, koho autor
textu viděl padat, musely být ženy a ne vojáci - ale proč? Pravidlo je asi
takové: když někdo na někoho střílí, pak padá spíš ten, na koho se střílí, než
ten, kdo střílí. Taková pravidla totiž nebývají formulována ani v gramatikách,
ani v encyklopediích.

Nepřekládané výrazy
Představme si, že potřebujeme přeložit anglický text obsahující francouzskou
frázi v uvozovkách. Správný překlad celého textu například do češtiny by
pochopitelně měl dotyčnou frázi ponechat beze změny. To samo ještě není tak
velký problém: systémy stejně mívají tendenci ponechávat beze změny slova,
která nebyla nalezena ve slovníku a francouzská slova se většinou v anglickém
slovníku nenajdou. Navíc dnes existují i dost efektivní postupy automatické
detekce jinojazyčných úseků v překládaném textu (založené např. na různých
frekvenčních charakteristikách písmen a jejich kombinací v různých jazycích).
Přesto se i zde skrývají problémy: Představte si, že překládáte francouzský
text se stejnou francouzskou frází v uvozovkách do angličtiny. Jak má systém
překladu rozpoznat, zda se tato fráze v uvozovkách má překládat nebo ponechat
nepřeložená? Pravidlo nepřekládat nic, co je v uvozovkách, by asi nebylo dobrým
řešením. V uvozovkách mohou být uzavřeny nejrůznější citace, které je nutno
překládat, a naopak např. názvy děl v původním znění se dnes většinou do
uvozovek neuzavírají.
Další možností čistě teoreticky je, že by překládaný text byl předem připraven
tak, aby u každého slova byl skrytý kód určující, v jakém jazyce je toto slovo.
Například psaní v textovém editoru Microsoft Word umožňuje takové řešení. Je
ale reálné předpokládat, že autoři textů budou takovou možnost důsledně
využívat? A co např. s texty doručovanými elektronickou poštou, kde se stále s
přenosem podobných skrytých kódů příliš nepočítá?
Navíc existují i četné další typy výrazů, které obecně není namístě překládat:
- chemické značky a vzorce (např. Fe, H2O)
- matematické symboly (to bývají zpravidla jednotlivá písmena, ale jak se dá
jednoduše rozpoznat například, kdy "a" je v českém textu symbol proměnné a kdy
je to spojka?)
- identifikátory proměnných, klíčová slova programovacích jazyků a podobné
specializované výrazy v komentářích k počítačovým programům a systémům (např.:
"po stisknutí klávesy Enter se na obrazovce objeví obsah proměnné TotalSum")
- zkratková jména mezinárodních organizací, systémů ap.
- jména mající charakter registrovaných ochranných známek, i když to v textu
nemusí být vždy řádně označeno (např. InterTran, nebo MS Windows)

Vlastní jména
V literatuře někdy najdeme vlastní jména zařazená jako jeden z bodů seznamu
těch prvků textu, které se nepřekládají. To ovšem nevystihuje problém vlastních
jmen v úplnosti.
Je pravda, že např. jméno Spinoza bude vypadat takto a ne jinak v každém
jazyce, který se píše latinkou. Jenže například v českém textu se s tímto
jménem můžeme setkat ve tvarech různých pádů: Spinozy, Spinozovi ap. Systém
překladu tedy musí umět nejen rozpoznat vlastní jména jako slovníkové jednotky,
které se nepřekládají, ale zároveň každé takové jméno náležitě morfologicky
(tvaroslovně) zpracovat. To znamená ve zdrojovém (vstupním) jazyce rozpoznat
konkrétní tvar a převést na základní tvar, v cílovém (výstupním) jazyce
vytvořit tvar odpovídající požadavkům kontextu. A to by mělo alespoň s nějakou
rozumnou mírou spolehlivosti fungovat i pro jména, která dosud nejsou ve
slovníku. (Protože jinak by překladové nástroje musely obsahovat minimálně
telefonní seznamy a místopisné rejstříky všech zemí světa!) Ani tím však
problém vlastních jmen nekončí. Všimněme si, jak násilně působí například
anglický přepis ruského jména Mikhail v českém překladu anglického textu, když
běžný český přepis tohoto jména je Michail. Vyřešit tuto dílčí úlohu zaručeně
správně by ovšem vyžadovalo nejspíš tyto kroky:
- rozpoznat při analýze anglického textu, že jde o ruské jméno.
- podle tabulky definující způsob přepisu ruských jmen do angličtiny
rekonstruovat původní podobu jména v azbuce.
- podle tabulky definující způsob přepisu ruských jmen do češtiny vytvořit
správný český přepis jména.
Ale ani tím celý problém nekončí. Představme si nyní, že se v anglickém textu
nachází jméno psané Sukhoy. Toto jméno by v českém textu mělo být přepsáno jako
Suchoj pokud je to jméno člověka žijícího v Rusku nebo jiné "azbukové" zemi,
resp. jméno místa v některé z těchto zemí. Pokud by to ale bylo např. jméno
Američana ruského původu, pak by bylo správné jedině ponechat ho v podobě
Sukhoy.

Překlepy a chyby
Jeden z problémů snad všech dnes existujících nástrojů automatizace překladu je
nevyřčený předpoklad jejich tvůrců, že překládané texty jsou pravopisně a
gramaticky bezchybné. Je celkem pochopitelné, že při sestavování počítačových
slovníků a pravidel gramatické analýzy se vychází z takového pracovního
předpokladu, jinak by totiž hrozilo, že systémy budou nakonec překládat cokoli
čímkoli (ne že by to tak někdy stejně nevypadalo). Na druhé straně je však
třeba si uvědomit, že reálné texty téměř nikdy zcela bez chyb nejsou.
K odhalování a automatizaci oprav chyb v textech dnes existují specializované
nástroje automatické pravopisné korektory (v anglické literatuře obvykle
nazývané spelling checkers), gramatické korektory (grammar checkers) a stylové
korektory (style checkers). Často jsou tyto nástroje integrovány do textových
editorů a sázecích systémů. Přinejmenším mechanismy pravopisné a alespoň zčásti
i gramatické korektury by zřejmě měly být integrovány i v kvalitním systému
plně automatického překladu. Výhodou takové integrace by pak mohlo být i
usnadnění automatické opravy nalezené chyby, např. pravopisné: Dnešní
pravopisné korektory se zpravidla snaží nabídnout uživateli co nejvíc možností
opravy slova, které bylo vyhodnoceno jako chybné, ale skutečně kvalitní
syntaktická analýza může některé z takových možností vyloučit. Představme si
například, že český text obsahuje tuto chybně napsanou větu: Obě knihz se
zabývají týmž problémem.
Kdyby byl na tento text použit korektor vestavěný v editoru MS Word 97, nabídl
by tyto možné opravy tučně vysázeného slova: kniha kniho knihu knihy knih. Nyní
předpokládejme, že před předáním textu k dalšímu zpracování nebyl použit
korektor, ale dojde k překladu do angličtiny s využitím (hypotetického) systému
automatického překladu s integrovaným korektorem českých slov.
U chybně napsaného slova se proces překladu zastaví s tím, že je nelze
tvaroslovně analyzovat a nalézt ve slovníku. Spustí se korektor, ten nabídne
výše uvedených pět hypotéz, jaký slovní tvar snad mohl mít autor textu na mysli
a systém překladu následně otestuje všech těchto pět hypotéz pokusem o
syntaktickou analýzu celé věty. Výsledek tohoto testu přirozeně bude, že pouze
při čtvrté volbě má věta jako celek vůbec nějakou syntaktickou interpretaci.
(Spojení "Obě kniha", "Obě kniho" atd. jsou syntakticky neinterpretovatelná,
představují zjevnou gramatickou chybu na úrovni věty jako celku).
Je tedy vysoce pravděpodobné, že věta správně měla znít: Obě knihy se zabývají
týmž problémem. Vysoká pravděpodobnost sice není jistota, a systém by to měl
uživateli nějak naznačit, nicméně uživatel by tímto způsobem mohl obdržet plně
automaticky (!) smysluplný překlad např. v této formě: Both books(?) deal with
the same problem.

Mnohovýznamovost (polysémie) slov
Jednotlivé termíny se ve dvou jazycích překrývají pouze částečně; systém
automatického překladu musí rozpoznat, o jaký případ se jedná

Budoucnost počítačového překladu
O systém natolik komplexní, že by zahrnoval univerzálně použitelná řešení všech
výše uvedených problémů, se snad v současnosti nikdo ani nepokouší. Z toho
vyplývá, že se na poli počítačového překladu asi ještě dlouho budeme muset
spokojit převážně se dvěma možnostmi:
- s nástroji poskytujícími pouze indikativní překlad, tj. text zhruba
indikující obsah originálního textu, nikoli přesný překlad všech termínů
dodržující všechna gramatická pravidla cílového jazyka
- s nástroji pouze částečně automatizujícími úlohu překladu např. tak, že
vyhledávají slovníkové informace (potenciálně) relevantní k vyznačeným úsekům
textu.
Plně automatický překlad vyšší kvality zůstane zřejmě ještě nějakou dobu omezen
na úzce specializované aplikační oblasti, jako jsou např. zprávy o počasí.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.