3.10. Fordítás számítógéppel

12. FELADAT

A 3) vizsgálatban gépi fordítások eredményeit kellett vizsgálni, összehasonlítani. Mik a tapasztalatok?

Ma már triviális a nyelvtechnológusok számára, hogy nem érdemes a közeljövőben automatikus gépi fordításra törekedni. A cél az emberi fordítás gépi támogatása: azaz a szótárazás segítése, az ismétlődő szerkezetek előfordítása, a szinonimák közötti választás segítése.

13. FELADAT

A 4a) vizsgálatban a digitális és a papírszótár előnyeit és hátrányait kellett összegyűjteni. Most idézzük fel ennek a vizsgálatnak az eredményét!

A digitális szótárak esetében a többszavas kifejezéseket mindegyik szavukra rákeresve meg lehet találni, míg a papírszótár mindig terjedelmi korlátokkal küzd, ezért a szerkesztőinek döntenie kell, hogy a többszavas kifejezéseket melyik szónál jeleníti meg. Ugyanakkor a papírszótár nagy előnye, hogy a szócikkek között vándorolhat a tekintetünk, és olyan összefüggésekre is rábukkanhatunk, amit a digitális szótárt használva nem veszünk észre, hiszen mindig csak egy szócikket látunk a monitoron. A digitális szótárak használatakor egyszerre több szótárban is kereshetünk, és a szótár „megfordítható”, azaz nem kell a két irányt (magyar-angol, angol-magyar) külön megszerkeszteni. A digitális szótár tárolhatja a toldalékolt alakokat is (kereshető formában), akkor is, ha azok szabályosan lettek létre hozva, a papírszótárban erre nem pazarolhatjuk a helyet. A digitális szótárhoz könnyen kapcsolható kiejtési (hangzó) szótár is. A digitális szótárak könnyebben elérhetőek, nem kell nagy papírköteteket cipelni, emelgetni, forgatni. És egy nagy előny: a digitális szótárak használatához nem kell tudni készségszinten az abc-t és a sorba rendezés szabályait!

A fordítócsoportok támogatására ma már nem csak egyszerű szótárak, hanem terminológiakezelő rendszerek, sőt fordítómemóriák is létrejöttek. A terminológiakezelő rendszerek azokat a szakkifejezéseket tárolják, amik a szövegben többször előfordulnak, ezzel segítve a következetes fordítást, akár egy fordító hosszabb munkájában, vagy több fordító közreműködése esetén. Ezek a szakkifejezések természetesen nem csak egy szóból állhatnak, lehetnek több szavas kifejezések, sőt, tagmondat szintű egységek is.

A fordítómemória lényege, hogy a fordítás során eltárolódnak a forrásnyelvi elemek és ezek célnyelvi megfelelőik, és ez egy későbbi fordítás esetén a fordító segítségére lehet. A fordítómemória csak akkor tud működni, ha megjelöljük, hogy melyik forrásnyelvi mondathoz melyik célnyelvi mondat tartozik. Jó példa erre a Biblia fordítás, ahol minden mondatot egy egyedi azonosító jelez az eredeti és a fordított szövegben egyaránt. Az automatizált szövegszinkronizálás során a számítógép önállóan találja meg az összetartozó mondatpárokat. Ebben nehézséget okozhat a mondatok azonosítása (egyrészt nem egyértelmű, hogy hol a mondat vége, másrészt lehet, hogy egy forrásnyelvi mondatnak a fordításban két mondat felel meg). A szegmentálásban fel lehet használni a már lefordított mondatokat pl. tulajdonnevek (kivéve a Duna – Danube, Bécs – Vienna típusú párokat), számok stb. megfeleltetésével. Formázott szövegek esetében a szegmensek elkülönítését elég bekezdésenként elvégezni (ez idő- és tárkímélőbb megoldás). A szöveg szinkronizálása, ahogy minden nyelvtechnológiai megoldás, lehet statisztikai (megadva egy hasonlósági mértéket) vagy nyelvészeti alapú.

A fordítómemóriát a fordítók munkájának segítése mellett szótár-kialakításra is lehet használni (lásd Prószéky - Kis 1999). Lássuk az alábbi mondatpárt:

1. ábra fordítás

A példa forrása: Prószéky-Kis, 1999.

Ha nem ismerjük a password szó jelentését, de azt igen, hogy főnév, akkor öt lehetőség adódik a fordítómemória alapján a szótári tétel automatikus létrehozására (azaz öt szópár): password – másodperc, ablak, képernyő, felhasználó-azonosító, jelszó. Ha megvizsgáljuk a korpusz összes mondatát, és megszámoljuk, hogy hány olyan mondatpár van, amelyben előfordul a password – jelszó, password – ablak, password – másodperc stb. pár, és hány olyan, ahol ezek egymástól függetlenül fordulnak elő, akkor a legnagyobb valószínűséggel a password – jelszó jelentéspárt fogjuk kapni.

A fordítómemória tehát egy mondatpárokat tartalmazó adattárból áll, és egy olyan programrészből, ami a fordítandó szövegben megkeresi az adattárban szereplő mondatokat és felajánlja a fordításukat. Ez a megkeresés természetesen nem lehet karakterre pontos egyezés, hiszen kis különbségek (nevek, gépelési hibák stb.) lehetnek a tárolt változat és a most fordítandó mondat között. Fordítás során akkor ajánlhat a fordítandó mondatra egy verziót a program, ha a fordítandó mondathoz nagyon hasonlót talál az adatbázisban. A hasonlóságot felszíni értelemben kell érteni, azaz a karaktersorozatok hasonlóságát. Valójában ez nyelvészetileg nem igazán releváns, hiszen sokkal többet mondana a szerkezetek hasonlósága felszíni különbségük ellenére is.

A fordítómemóriának a sok előnye mellett néhány hátránya is van. Például az automatizált szövegszinkronizálás eredményezhet hibás párosításokat is, amelyek a későbbi fordítások során újra és újra felbukkanhatnak.

14. ábra hunglish

ábra: fordítómemória, 2. kép
Forrás: http://hunglish.hu/index.html.

Ingyenes párhuzamos korpuszok több helyen elérhetők a weben. Két angol-magyar párhuzamos korpuszt ajánlok:

1) http://corpus.nytud.hu/demo/infotrend/orwell/: Angol-magyar párhuzamos korpusz, Orwell: 1984 c. regénye alapján, az MTA Nyelvtudományi Intézetének Korpusznyelvészeti Osztálya hozta létre.

2) http://hunglish.hu/index.html: Hunglish korpusz, a BME Médiaoktató és Kutató Központ (MOKK) és az MTA Nyelvtudományi Intézetének együttműködése révén jött létre. 3,5millió mondatpárt tartalmaz, és mindenki tölthet fel bele dokumentumokat, bővítendő ezt a mondathalmazt. A feltöltött dokumentumok szűrésen esnek át, de azért természetesen most a tesztverzióban sok hibás adat is van a rendszerben, ahogy ez a fenti képen is látszik.

14. FELADAT

A 3) vizsgálat mondataiból válasszunk ki egy érdekesebb kifejezést, és vizsgáljuk meg, hogy a párhuzamos korpuszok (a fordítómemóriák potenciális alapjai) milyen megoldásokat javasolnak rájuk!

A with hardly any neck kifejezésre, illetve a neck szóra keressünk rá az orwelli, aztán a hunglish párhuzamos korpuszokban. A teljes kifejezésre az orwelli korpuszban nincs találat. A hunglish korpuszban a kifejezést mint az egyes szavak, nem is feltétlenül közös előfordulását értelmezi a rendszer, ezért sok találat van. A neck szóra mindkét rendszerben van találat.

15. ábra neck

ábra: neck szó a párhuzamos korpuszokban
Forrás: http://corpus.nytud.hu/demo/infotrend/orwell/.

ábra: with hardly any neck kifejezés a párhuzamos korpuszokban
Forrás: http://hunglish.hu/index.html/.

ábra: neck szó a párhuzamos korpuszokban
Forrás: http://hunglish.hu/index.html/.

A legutolsó ábrán a pirossal bekeretezett lehetséges jelentés magyarázatot nyújthat arra, hogy bizonyos gépi fordítók miért fordították a He was a big, beefy man with hardly any neck mondatot Ő egy nagy, húsos ember volt alig bármennyi szerelmeskedik mondatként.

Az eddig tapasztaltak alapján elmondhatjuk, hogy a gépi fordítás nagyrészt a szótározásra hasonlít, legfeljebb nem szónyi, hanem nagyobb egységeket is tároló párhuzamos korpuszok segítségével.

Valójában a gépi fordítóprogramoknak többféle megközelítésmódja is lehet. A következők alapján szokták őket csoportosítani (Prószéky - Kis 1999): a fordítóprogram lehet produktív, azaz szabályokat alkalmazó vagy minta alapú. Az utóbbi esetben a program beépített mintákat használ. A mintalapú fordítás működési elve megegyezik a fordítómemória működési elvével. Ha hasonlósági küszöbérték feletti mintát talál, akkor azt (emberi közreműködés nélkül a célnyelvi mondathoz igazítja. Mivel a hasonlítás általában a felszíni alakok hasonlóságán alapul, ezért a fordítás minősége is rossz.

A szabályokat alkalmazó fordítóprogram lehet közvetlen vagy közvetett. Ez azt jelenti, hogy a forrásnyelv analízise és a célnyelv szintézise szétválasztható-e vagy sem. A közvetett rendszerekben általában vagy egy közvetítő nyelv, interlingua. Vagyis a fordítás menete: forrásnyelvi szöveg -> interlingua -> célnyelv. Ennek a módszernek az előnye, hogy ilyen módon újabb és újabb nyelvek is a rendszerbe kapcsolhatók. A közvetítő nyelv kezdetben általában szintaktikai fa vagy más grammatikai metanyelv. A rossz alternatíva-választásnak, vagyis interlinguális fordításnak azonban minden szinten hatása van. Az ilyen rendszerek a szintaktikai többértelműségek miatt általában túlgenerálnak.

15. FELADAT

Az új információk alapján vizsgáljuk meg ismét a 3) vizsgálat mondatait! Melyik típusú fordítóprogram készíthette őket? Milyen érvek szólnak az állítás mellett, és milyenek ellene?

A fordítóprogramok, ahogy más nyelvtechnológia alkalmazások, szinte minden esetben üzleti titoknak minősülnek. Ezért ritkán lehet pontos információt szerezni a működésükről. Kivétel ez alól, ha tisztán tudományos céllal, nem értékesítési céllal készül egy-egy fordítóprogram. Ilyenkor természetesen nincs pénz nagy korpusz építésére, komoly fejlesztőgárda foglalkoztatására, vagy akár fejlesztőeszközök beszerzésére. Kis adatbázis mellett a tisztán nyelvészeti fordítóprogramok is gyorsan és hibátlanul működnek. Példa erre a Gelexi-projekt, amelyben kb. százszavas szótáron villámgyorsan és hibátlanul működő fordítóprogramot tudott készíteni a tanszékünkön dolgozó nyelvészcsapat. Az a program szabályalapú és közvetett volt, mivel interlinguaként egy prolog-fordítás szolgált. E miatt a rendszer mindkét irányba (magyar-angol, angol-magyar) automatikusan működött, a két irány külön leprogramozása nélkül. Viszont az adatbázis méretének növelésével a program működése szélsőségesen lassult. Azóta számtalan kísérlet született az alapelvek megtartása mellett a fordítóprogram átdolgozására. További információk: http://lingua.btk.pte.hu/gelexi.asp

« Előző | Következő »