Ismét egy morfológiai elemzőt fogunk megfigyelni működés közben. Ezt a szoftvert a LiLe-projekt munkatársai fejlesztették 2003-2004-ben a PTE BTK Nyelvtudományi Tanszékén. (Egy részletesebb ismertetés található a http://lingua.btk.pte.hu/lile.asp oldalon, a Konferenciák almenüben, illetve a http://lingua.btk.pte.hu/lile/konferenciak/041209_10_MSZNY2004_2_handout.pps fájlban.)
Vagyis ez most nem egy képzeletbeli morfológiai elemző lesz, hanem egy valóságos program. A programot a LiLe kutató- és fejlesztőcsoport azzal a szándékkal készítette, hogy a közoktatásban is használható morfológiai elemzőt állítsanak elő. Ezért az elemző paraméterezhető volt aszerint, hogy milyen szabályokat ismerjen és milyeneket ne. Vagyis lehetett vele hibás elemzéseket is előállítani, természetesen úgy, hogy a számítógépes elemző el tudta magyarázni, hogy melyik elemzés miért hibás.
Elemeztessük ezzel a LiLe programmal az ajtóban szóalakot! A „normális” beállításban, azaz, ha csak a hibátlan válaszokat várjuk, akkor a megoldás az lesz, hogy ajtó szótő + ban/ben helyhatározórag.
Paraméterezhetjük a programunkat úgy is, hogy mutassa meg azokat a hibás elemzéseket, ahol a szótő és a feltételezett toldalék szófajilag egyezik, de valamilyen szempontból az elemzés mégis hibás. Ebben az esetben az elemző két megoldást ad:
-
ábra: a LiLe program elemzése, ha hibás elemzéseket is megmutat, de csak a szófajilag egyezőket
Vagyis az ajtó + ban/ben mellett megmutatja az ajtó + ba/be + on/en/ön elemzést is, és elmondja, miért nem lehet ez jó megoldás: azért, mert a ba/be után nem következhet on/en/ön rag (hiszen a ba/be mint rag, szózáró morféma). (A programfelület még nem esett át a userinterfész, azaz a felhasználói felület megtervezésén és megfejlesztésén, a fejlesztés első célja a megfelelően paraméterezhető elemzés volt. De nem haszontalan látni, hogy a kicsit nyers program is úgy működik, mint a kész, csak nem annyira felhasználóbarát a kommunikációja. A technikai részleteket itt most nem magyarázom. A nagyon kíváncsiaknak: a lee_id a ’lexikai egység identifikáló (=azonosító)’ rövidítése.)
Mi történik akkor, ha átállítjuk a paramétereket, és a program most már azokat a hibás elemzéseket is megmutatja, ahol a szótő és a feltételezett toldalék szófaja sem egyezik? Mit tippel, hány lehetséges elemzés jön így létre, ha az elemző szoftver ismeri az összes magyar toldalékmorfémát és azok allomorfjait?
Nem, nem három! Három akkor lenne, ha a szótő mindig az ajtó szó lenne. Ekkor egy potenciális elemzés lehetne az is, hogy ajtó + ba/be + n mint a feltételes mód jele. Ez az elemzés két szempontból is hibás persze, mert nem egyezik a szófaj, és nem egyezik a morfémasorrend (hiszen, ahogy már elhangzott, a ba/be szózáró morféma).
Csakhogy a szótő nem csak az ajtó lehet, hanem az a névelő is!
-
ábra: a LiLe program elemzése, ha minden hibás elemzést megmutat
Milyen következtetést vonhatunk le mindebből? Hogy a számítógép bizony erővel, „bután” lefuttat minden lehetséges összerakást, és aztán kihúzza a hibásakat. Nincs olyan fajta nyelvi intuíciója, mint az anyanyelvi beszélőknek. Egyetlen anyanyelvi beszélőnek se jutna eszébe, hogy az ajtóban szóban a felszólító mód jelét keresse. Éppen ezért a számítógépes nyelvi elemzés sok meglepetést tartogat a nyelvészeknek is, és rá kell döbbennünk, hogy egészen más logikával kell egy gépet a nyelvre tanítani, mint az embereket.