Skip navigation

3.4.1. A „kacsónak” probléma

Tételezzük fel, hogy van egy morfológiai elemző programunk! Ilyen programok futnak a helyesírás-ellenőrzők, a keresők és általában szinte minden számítógépes nyelvészeti program mögött. Ez a morfológiai elemző program ismeri az összes alapszót és természetesen a nyelvtanilag fontos viszonyszavakat (segédigék, névutók, igekötők, kötőszók, partikulák, névelők, tagadószók), a mondatszavakat és a határozószavakat. Nem ismeri viszont az összes magyar főnevet és igét, hiszen ezekből nap mint nap keletkezik új. Ismeri a magyar fonológia és morfológia szabályait is, beleértve ebbe a toldalékokat és azok alakváltozatait is.

Egy ilyen jól képzett morfológiai elemző találkozik egy feldolgozandó szövegben a kacsónak szóval. Mielőtt a szöveg helyesírására vonatkozóan tanácsot adhatna, vagy fordíthatná a szöveget, vagy felolvashatná, el kell döntenie, hogy ez a szó létező magyar szó lehet-e (akár olyan új szó, amivel a program még nem találkozott), és ha igen, mi lehet a szótöve.

(Az elemzés menete Prószéky Gábor (2000)-es cikkében olvasható.)

Először ki-ki gondolja végig, hogy ha a kacsónak szó elemzése érettségi feladat lenne nyelvtanból, milyen megoldást adna rá!

Ezután nézzük, hogyan okoskodik a számítógépes nyelvészeti program!

Az ilyen programok sokféleképpen működhetnek, és a konkrét működés általában üzleti titok. De az valószínű, hogy agglutináló nyelv esetén, vagyis amikor a szótőhöz toldalékokat ragasztunk, érdemes a programnak hátulról „vagdosnia” a vizsgált szót, keresve a potenciális szótövet és a lehetséges toldalékokat.

Az első lépés, hogy feltételezzük, hogy nem is kell levágni semmit, a vizsgált szó egy szótő: kacsónak. Lehetséges szótő-e ez a magyarban? Természetesen igen. Hangrendileg, fonotaktikailag semmi probléma vele, a végződése pedig nem ritka a magyarban. Ennek ellenőrzéséhez használhatjuk A magyar nyelv szóvégmutató szótárát (szerkesztette Papp Ferenc, egy ismertetését lásd itt: http://hu.wikipedia.org/wiki/A_magyar_nyelv_sz%C3%B3v%C3%A9gmutat%C3%B3_sz%C3%B3t%C3%A1ra) vagy a http://corpus.nytud.hu/inlex/ oldalon az MTA által fejlesztett Intelligens lexikai adatbázist. nak-ra végződő szó a magyarban van más is, pl. csónak, csanak, csarnak, lazsnak. (A nem ismert szavakat hol lehet gyorsabban megtalálni? Egy értelmező szótárban vagy a google-ban?)

A második lépés, hogy egy betűt levágunk a szó végéről (a számítógépes programok írott nyelv esetén nem hangokban, hanem betűkben tudnak „gondolkodni”, azokkal tudnak műveleteket végezni.). Így létrejön a kacsóna+k elemzés. A -k toldalék a többes szám jele a magyarban: ezt a programunk is tudja. Lehet-e a kacsóna ugyanazon a logika alapján egy szótő, ahogy a kacsónak-ot is elfogadtuk potenciális szótőnek? Ki mit gondol?

Nem, nem lehet. Azért nem, mert a -k többes szám jele az -a/e végű szavak hangzóját nyújtja a magyarban, ez egy általános érvényű fonológiai szabály. Pala - palák, baba - babák, kefe - kefék stb. Vagyis a kacsóna+k elemzés csak akkor állná meg a helyét, ha a vizsgált szó kacsónák lenne.

Harmadik lépés: vágjunk le két betűt! Kacsón+ak. Egy kacsón potenciális tő többes száma? Mint pl. ház - házak, vár - várak? Ón-ra kevés szó végződik magyarul, ezek is máig érezhetően idegen szavak: macedón, polifón, ión, és egy régies szó: hón. Mindenesetre nem lehetetlen egy ilyen szótő magyarul. És mi a helyzet a többes számba helyezésével? Ki mit gondol?

Nem, sajnos, nem lehet. Az -ak allomorf a többes szám jelénél nem produktív, azaz új főnevekhez nem kapcsolódik, csak régieknél fordul elő, amik listázhatók, mint kivételek (nyitótöveknek hívjuk őket, mert az -ok allomorfnál nyitottabb kötőhangzót használnak). Melléknevek esetében produktív az -ak toldalék, vagyis azt feltételezhetjük, hogy a kacsón melléknév és többes számba tettük. Ez egy lehetséges megoldás a programunk számára!

Negyedik lépés, amikor három betűt vágunk le: kacsó+nak. A -nak kétértelmű toldalék a magyarban: lehet főnévi dativusi (részeshatározói) rag (pl.: háznak), vagy lehet igei személyrag, többes szám harmadik személy, jelen idő, kijelentő mód, alanyi ragozás (pl.: írnak). Lehet-e a kacsónak egy részeshatározói esetben lévő főnév? Ó-ra végződő főnév rengeteg van, pl.. móló, póló, tapló, sarló, napló, nebuló, apó, báró, akció, civilizáció, mackó stb. A toldalékolásuknál sincs olyan szabály, ami tiltaná ezt az összetételt, vagyis lehetséges megoldás a kacsó+nak, főnévi szótővel. (Valószínűleg az alfejezet elején, kvázi érettségi feladatként, mindenki ezt a megoldást választotta.)

Lehetséges-e, hogy a kacsó egy igei szótő, amin a fent ismertetett igei személyrag található? Ó-ra végződő magyar ige létezik, a , és ennek különféle igekötős változatai: ez nem akadály tehát. Ez mégsem lehetséges elemzés! Ugyanis a magyar igék szóátvétellel nem bővíthetők, kizárólag csakis képzéssel. Ilyen képzők a -z és az -l igeképző: email - emailezik, internet - internetezik, print - printel stb. Mivel ilyen képző nincsen a kacsó szóban, ezért nem lehet a programunk számára ismeretlen, azaz új igető.

Ötödik lépés: négy betű levágása: kacs+ónak. Ónak toldalék nincs a magyarban, de lehetne kacs+ó+nak az elemzés, ha a kacs igei tő, az -ó pedig a folyamatos igenév képzője (a -nak pedig a részeshatározói esetrag). Csakhogy ez az elemzés is lehetetlen az előző bekezdésben ismertetettek alapján: a kacs szótő sem lehet igei tő, mert se nem ismert igei tő, és se nem képzett.

Hatodik lépés: öt betű levágása. Ka+csónak. Ez csakis egy összetett szó lehet: ennek nincs semmilyen akadálya.

Az utolsó, hetedik lehetőség: k+acsónak. Ez lehetetlen, mert egybetűs szótő nem lehet a magyarban, szó elején pedig nincsenek a magyarban toldalékok (a leg- kivételével).

Összefoglalva az eddigieket: a számítógépes elemző programunk számára a következő elemzések lehetségesek: a kacsónak 1) egy, eddig a program számára ismeretlen szótő, lehet főnév, melléknév, határozószó; 2) a kacsón melléknévi tő többes száma; 3) a kacsó főnévi tő részeshatározói alakja; 4) összetett szó: ka + csónak, aminek az első tagja eddig ismeretlen szó. Ebből a négy lehetséges elemzésből egy diák valószínűleg csak a 3)-as elemzést találja meg fejből, és azért, mert önkéntelenül számít arra, hogy ismeri a magyar nyelv szavait, és hogy ismerős szótőt kell keresnie. A számítógépes program nem építhet az anyanyelvi kompetenciájára. Ez a számítógép vagy a program számára nem probléma, de az eredmény az lesz, hogy az anyanyelvi beszélő számára valószínűtlen (vagy kevésbé valószínű) megoldásokat a számítógép nem fogja megkülönböztetni a számunkra természetesnek tűnőtől.