Počítačové překlady mohou urychlit globalizaci světa

Zatímco v letošním Computerworldu číslo 6 jsme se zastavili u výčtu nástrojů pro počítačem podporovaný překlad (...


Zatímco v letošním Computerworldu číslo 6 jsme se zastavili u výčtu nástrojů
pro počítačem podporovaný překlad (zejména slovníkových systémů), podívejme se
nyní na celý problém "počítače a překladu" trochu z teoretického hlediska.
Co to vůbec neznamená?
Především je třeba si uvědomit, že pole "počítačového překladu" je poměrně
mlhavě definované. Optimistické prognózy z 50.-60. let o tom, že aplikace v
dohledné době zvládnou vše, včetně překladů beletrie, se nepotvrdily. Počítač
na poli překladatelských služeb slouží dnes spíše jako pomocný nástroj, který
urychluje práci člověka a vzhledem k tomu, že čas kvalitního překladatele je
drahý, představuje přinejmenším nezanedbatelný ekonomický přínos. Každopádně
však spíše než o počítačovém překladu je dnes namístě hovořit o počítačem
podporovaném překladu. Stejně tak je většinou vhodnější vyhýbat se slovu
"automatický" a raději hovořit o "poloautomatických" nástrojích, neboť programy
stále vyžadují lidskou asistenci toho či onoho druhu.
Trocha historie
Nejjednodušší a historicky také nejstarší jsou systémy většinou označované jako
tzv. první generace, překládající víceméně metodou "slovo za slovo". Výsledkem
je jen zřídkakdy plně srozumitelný text, pročež se dnes většinou v této
souvislosti používá termín "indikativní překlad". Ani takový výsledek však
nelze považovat za zbytečný. Lze jej jistě využít pro základní orientaci v
problematice textu a na jeho základě lze rozhodnout, zda textu věnovat další
pozornost, respektive ho nechat přeložit kvalifikovaným znalcem jazyka.
Překladové systémy první generace tak mohou pomoci zejména v případě exotických
jazyků (což ani nemusí být jazyky exotických zemí ruku na srdce, kdo z nás
rozumí alespoň trochu maďarsky?), eventuálně v určitých speciálních situacích
např. v době studené války v 50. letech je Američané užívali k základnímu
monitorování sovětského, především pak vědeckého tisku.
Z teoretického hlediska poměrně málo podstatnou úpravou metody překladu "slovo
za slovo" je metoda, kterou bychom mohli označit "fráze za frázi". Je zajímavé,
že tuto metodu lze dost úspěšně aplikovat všude tam, kde překládané dokumenty
mají nějak pevně danou, víceméně formalizovanou strukturu a současně používají
limitovanou slovní zásobu. Odborně se tu hovoří o tzv. omezených, příp.
řízených jazycích. Může jít například o obchodní dopisy, nebo o meteorologická
či burzovní zpravodajství.
Správné rozpoznání slov
Předpokládejme, že máme program, který se vůbec nezabývá ani strukturou věty,
ani strukturou jednotlivých slov. Pouze vezme slovo a nahradí ho druhým členem
slovníkového páru. Je jasné, že tato metoda není příliš vhodná, protože jediné
slovo se může vyskytovat v celé řadě tvarů z indoevropských jazyků to platí
zejména pro slovanské jazyky, ale úplně "ušetřena" tohoto jevu není ani
angličtina. Pro každé slovo by tu tedy muselo být (minimálně viz ještě dále!)
tolik slovníkových párů, kolik může mít toto slovo různých tvarů. Přitom např.
v češtině se může základní slovní zásoba několika desítek tisíc slov projevovat
v milionech různých tvarů, a navíc překlad téhož slova v různých tvarech např.
do angličtiny bude většinou stále stejný. Plýtvání pamětí, ale i prostředky na
tvorbu takového slovníku, je evidentní.
"Inteligentnější" přístup spočívá v tom, že slovo nejprve převedeme na jeho
základní (slovníkový) tvar procesem, který se obvykle nazývá lematizace. Teprve
základnímu tvaru pak slovník přiřazuje překladový ekvivalent.
Ani tento přístup se ovšem neobejde bez jisté další logiky. Představme si, že
by systém pracoval s anglicko-českým slovníkem slov v základních tvarech, a
pouze pokud by v něm příslušné slovo nenašel, zkoušel by je lematizovat. Tak by
ke slovu "left" zjistil, že znamená "levý", a nikdy by se nedostal k možnosti,
že jde o tvar slovesa "leave" ("opustit", "zanechat"). K podobnému problému
ovšem může dojít i tehdy, když se systém skutečně pokusí slovo z textu
lematizovat: např. "leaves" může být tvar výše zmíněného slovesa "leave" (a
mimochodem i stejně znějícího podstatného jména), ale také tvar slova "leaf"
("list")!
Překlad "na úrovni slovních tvarů"
Pokud překládané slovo není přímo slovníkovým tvarem, ale je nějak ohýbáno
(skloňováno, časováno,...), bylo by možná dobré, kdyby program zajistil jeho
překlad v podobném tvaru. Ani tento úkol není zcela triviální mimo jiné proto,
že tvarosloví jednotlivých jazyků na sebe nejsou jednoznačně převeditelná.
(Například čeština má 7 pádů, němčina čtyři a angličtina pouze u některých
zájmen rozlišuje dva. Naproti tomu 3 časům českých sloves odpovídá nejméně 5 v
němčině a 9 v angličtině.) Navíc se ovšem každý jazyk řídí svou gramatikou v
celé její složitosti a "podobný tvar" (i pokud v cílovém jazyce překladu
existuje) nemusí být vždy správným řešením. Například u českého slovesa "řídit"
je obvykle uvedeno, "co řídit", ve 4. pádě; u obou jeho obdob v ruštině,
"rukovodiť" a "upravljať", se "to, co je (nebo má být) řízeno", uvádí v ruském
"šestém" (tj. našem "sedmém") pádě.
Přesto je v zásadě možné vyjádřit základní gramatické vazby třeba tím, že při
překladu 2. pádu mezi češtinou a angličtinou systém nejprve najde překlad
slovníkového tvaru a pak před něj předřadí předložku "of". Výsledný "překlad"
sice možná nebude úplně správný podle anglické gramatiky, nicméně sdělovaná
myšlenka v něm přesto může být docela srozumitelná. Ostatně člověk překládající
do cizího jazyka, ve kterém není dokonale zběhlý, postupuje často podobně.
Problém gramatiky
Nyní je ovšem třeba si uvědomit další problém: ani gramatické tvary slov často
nejsou samy o sobě jednoznačné. Vezměme si jako příklad naprosto reálnou českou
větu: "Poskytujeme klientům rychlé služby." Jasné je, že "poskytujeme" je 1.
osoba množného čísla přítomného času oznamovacího způsobu a že "klientům" je 3.
pád množného čísla. Ale co "rychlé" a "služby"? Oba tyto výrazy samy o sobě
mohou představovat jak 2. pád jednotného čísla, tak 1. nebo 4. pád množného
čísla.
I na tomto příkladu (pokud bychom chtěli uvedenou větu překládat např. do
angličtiny) si zároveň můžeme všimnout, že jednotlivé jazyky mívají rozdílná
pravidla slovosledu, jejichž respektování metoda "tvar za tvar" pochopitelně
nemůže zajistit. A konečně je tu problém převeditelnosti slova jednoho jazyka
na právě jedno slovo druhého jazyka, neboli problém (ne)jednoznačnosti
překladových ekvivalentů. Například ke slovu "poskytovat" nám dobrý česko-
anglický slovník nabídne tyto možné překlady: give, provide, lend, render,
grant, allow, afford, accord, extend, accomodate, furnish, supply, yield, ...
Je jasné, že všechny tyto překlady se nehodí do daného kontextu ovšem pokud
vůbec něco v tomto kontextu vede k jednoznačnému výběru, pak je to nejspíš až
poslední slovo celé naší věty: "služby".
Problém překladových ekvivalentů je zvláště závažný při překladu mezi jazyky
výrazně rozdílných kultur. Zde totiž často nejde zdaleka jen o kontext
vymezující použitelnost určitých "překladových ekvivalentů", ale i o to, že
cílový jazyk vůbec nemá pojem odpovídající použitému pojmu vstupního jazyka,
resp. že pojmy obou jazyků mají podstatně odlišnou rozlišovací schopnost.
Budeme-li chtít například překládat z češtiny do čínštiny větu, ve které se
vyskytuje slovo strýc, narazíme velmi pravděpodobně na fakt, že v celém
dostupném kontextu není žádným způsobem uvedeno, zda se jedná o otcova staršího
bratra, otcova mladšího bratra, matčina bratra, manžela otcovy sestry či
manžela matčiny sestry, protože Češi většinou nepovažují za potřebné tuto
informaci uvádět jenže čínština má pro každou z vyjmenovaných kategorií
zvláštní slovo. Naštěstí se dnes přece jen většinou snažíme o překlad mezi
jazyky s dost velkým společným kulturním zázemím (euroamerická civilizace), kde
se tento problém nemusí projevovat tak výrazně.
Minimální žádoucí logika
Ačkoliv algoritmy, pomocí nichž překladatelský software pracuje, výrobci
přirozeně (přinejmenším co se detailů týče) tají, ideálem samozřejmě je, aby
počítač "porozuměl" celkovému významu vstupního textu. Tento mezistav (který by
snad dokonce mohl být nezávislý na konkrétním jazyce) by potom byl převeden do
cílové výstupní podoby. Bohužel však práce na tomto poli zatím nedochází k
příliš znatelnému pokroku a dokonce je otázka (spíše však pro filozofy než pro
počítačové odborníky), zda vůbec k nějakému zásadnímu pokroku může dojít. Ono
totiž není absolutně jasné nejen, co je vlastně celkovým významem libovolného
textu, ale ani to, jestli lze něco takového formulovat nezávisle na konkrétním
jazyce.
V překladových nástrojích druhé generace se tedy zpravidla úloha "porozumění"
omezuje na syntaktickou analýzu tj. rozbor určitých druhů vazeb mezi
jednotlivými větnými členy, případně hierarchické stavby celé věty. Je to v
podstatě něco podobného, co jsme dělali na základní škole při větném rozboru:
výsledek si můžeme představit jako jakýsi "diagram plný šipek" mezi
jednotlivými slovy věty, respektive "uzávorkování" textu podle jeho
hierarchické stavby. Jeho získání ovšem rozhodně není triviální záležitost.
Koneckonců ani v našem rodném jazyce není uzávorkování textu zdaleka vždy
jednoznačné. To si můžeme ukázat na příkladu věty: "Kosmická loď fotografovala
Seattle za letu k Marsu." Pouze z logiky věci tušíme, že tím, co letělo k
Marsu, nebyl Seattle. K jednoznačnému porozumění textu dokonce i když si je
účelově zjednodušíme na syntaktickou analýzu je třeba přinejmenším jisté
znalosti reálií, jen z gramatiky jazyka to prostě není možné.
Výsledek syntaktické analýzy
Výsledkem syntaktické analýzy textu je každopádně jakési schéma, vzorec či
diagram vhodně zakódovaný v paměti počíta-če. Takto získanou strukturu je pak
třeba vyjádřit v cílovém jazyce. Samotná analýza gramatických vazeb není
přirozeně totožná s porozuměním významu textu pro čtenáře, je ovšem určitým
jeho základním stupněm, který můžeme stěží obejít.
Hodně také záleží na tom, jaký zvolíme systém klasifikace (rozlišování)
syntaktických vazeb. O "skutečném významu" (ať už je to cokoli) větného členu
in France v anglické, resp. ve Francii v české větě nám (ani nikomu jinému)
mnoho neřekne, bude-li označen jako "předložková fráze". (To je mimochodem
celkem běžná praxe v syntaktické analýze u Anglosasů. Odtud pramení některá
nedorozumění v tom, co to vůbec znamená provádět syntaktickou analýzu.)
Podstatně přesnější už je např. označení "příslovečné určení místa" (na které
jsme jako Češi v syntaktické analýze celkem zvyklí). Je ovšem pochopitelné, že
čím přesněji chceme rozlišovat syntaktické vazby z hlediska jejich významu, tím
náročnější bude proces syntaktické analýzy.
Bylo by přehnané tvrdit o každém systému, který provádí (jakoukoli)
syntaktickou analýzu, že tím "vykazuje umělou inteligenci". Na druhé straně je
pravda, že kvalitní a pokud možno jednoznačná syntaktická analýza by často
vyžadovala i některé metody umělé inteligence.
Vraťme se však k našemu příkladu s kosmickou lodí. Jak by měl program poznat
správnou strukturu věty, pokud jí věcně nerozumí? Nabízí se šalamounská
odpověď: program správnou strukturu poznat nemusí, ale měl by zjistit, že se
zde skrývá přinejmenším potenciální dvojsmysl. Při překladu by pak mohl nalézt
podobně dvojsmyslnou formulaci v cílovém jazyce např. anglicky: "The spaceship
photographed Seattle flying to Mars." Vtip je v tom, že pokud je pro čtenáře ve
skutečnosti jednoznačně srozumitelný originál, pak asi bude i takto vytvořený
překlad. Jak prosté, milý Watsone! Jenže: opět zde platí, že čím lepší má
systém být v detekci potenciálních dvojsmyslů, tím důkladnější a jemnější musí
být jeho syntaktická analýza.
Třetí generace
Někteří odborníci na základě výše uvedeného a podobných příkladů soudí, že
budoucnost může patřit snad jedině překladovým systémům založeným na obecných
metodách umělé inteligence, jejichž báze znalostí budou obsahovat jak znalosti
o jazycích, mezi kterými se překládá (to znamená jejich slovníky, gramatiku a
sémantiku), tak znalosti o světě, jehož se týkají překládané texty. Jedině tak
lze skutečně modelovat proces porozumění, který zřejmě běžně probíhá v lidské
hlavě.
Bohužel, ani v tomto směru vývoje nebylo zatím předvedeno nic moc prakticky
použitelného a také zde někteří jiní odborníci vyjadřují pochybnosti, zda se to
vůbec někdy povede. Znalostní báze by musely být bezpochyby obrovské, ale
především není úplně jasné, jak by vůbec měly být naplňovány. Každý, kdo ví, že
Seattle je město, obvykle také ví, že města nelétají. Kolik podobných příkladů
by ale muselo systémem pokusně projít, než by byla explicitně shromážděna
potřebná suma podobných "samozřejmých" znalostí, jaké se zpravidla v žádných
učebnicích ani výkladových slovnících nenajdou?
Jedna myšlenka, která by mohla být bezprostředně prakticky užitečná, však z
výzkumu systémů založených na manipulaci se znalostmi vzešla. Je to představa
pokročilého interaktivního systému počítačového překladu "pro autora".
Tím se myslí, že uživatelem systému by neměl být někdo, kdo potřebuje přeložit
cizí text, kterému příliš nebo vůbec nerozumí, do svého jazyka (jak je tomu
většinou dosud), nýbrž spíše sám autor textu, nebo alespoň někdo, kdo mu
dokonale rozumí v jeho originálním znění. Takový uživatel totiž může
nejbezpečněji zodpovědět překladovému systému určité dotazy týkající se různých
možných významů některých pasáží textu, a tím maximalizovat jednoznačnost a
správnost produkovaného překladu.
9 0133 / pahn
Výhledy počítačem podporovaného překladu
Asi nikdo nechce, aby počítač překládal texty uměleckého charakteru a
"přemýšlel" nad tím, jak přeložit do češtiny shakespearovské drama, které (mimo
jiné) rodilému mluvčímu zní dnes již poněkud archaicky. A co si počít s citáty,
dialekty, argotem, slangem, slovními hříčkami, ironií, verši...
Současné cíle jsou poněkud skromnější. Výsledky počítačových systémů pro
překlad každopádně vyžadují lidskou korekci. I tak už například vysoce
automatizované překlady standardizovaných zpráv či obchodní korespondence (kde
spíše než o logiku může kráčet o velikost použité databáze) či rámcové
(přibližné) překlady čínských stránek WWW znamenají viditelný přínos.
Důležité je uvědomit si, že různí zájemci o počítačovou aplikaci v oblasti
překladu mohou mít podstatně odlišné nároky. Někomu plně stačí systém
indikativního překladu, s jehož pomocí například zjistí, co se kde zajímavého
dělá či děje. (To bude stále důležitější zejména s rozšiřující se obecně
zpravodajskou funkcí Internetu.)
Jiný potenciální uživatel potřebuje kvalitnější překlad, ale třeba pracuje v
oblasti s omezeným jazykem. Pro takové uživatele má smysl rozvíjet zde
nastíněné schéma druhé generace syntaktická analýza omezeného jazyka nemusí
vykazovat tolik úskalí. Navíc, jak už bylo zmíněno, lze uvažovat o určitých
formách interakce mezi uživatelem a počítačem, jimiž by uživatel podle okamžité
potřeby doplňoval některé v systému nedostupné znalosti jako např. "zda Seattle
může letět" (viz hlavní text).
Vzrůstající uživatelská příjemnost programů dnes dostupných na trhu a
stoupající výkon současných počítačů (za cenu akceptovatelnou běžným
zákazníkem) dávají v tomto ohledu poměrně optimistické vyhlídky.
Zajímavou možnost jistého alternativního přístupu k celému problému překladu
pomocí počítače v poslední době ukazují také systémy s tzv. překladovou pamětí,
ve které se, mírně zjednodušeně řečeno, ukládají celé věty nebo části vět,
které už jednou byly přeloženy. K překladové paměti se vrátíme zase někdy jindy.

Malý slovníček pojmů
Překladače první generace: poměrně primitivní nástroje překládající texty
metodou "slovo za slovo".
Překladače druhé (třetí) generace: nástroje překládající zejména za použití
metody syntaktické analýzy, resp. (třetí generace) pokoušející se překládat za
použití umělé inteligence.
Omezené (řízené) jazyky: speciální podmnožina jazyka s limitovanou slovní
zásobou a nějak formalizovanou strukturou. V první řadě sem patří odborné a
vědecké texty (ale, jak je zmíněno v textu, třeba také obchodní korespondence).
Lematizace: proces, kterým je slovnímu tvaru přiřazen jeho základní slovníkový
tvar (např. 1. pád jednotného čísla). Nástroj, který toto provádí, se označuje
jako lematizátor.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.