Skip navigation

3.7. A jelentés a számítógépek számára

Saussure óta tudjuk, hogy a nyelv jelrendszer, ahol egy jel jelentés és forma kapcsolata (Saussure 1998, az eredeti kiadás 1916, magyarul 1967). Arról, hogy a számítógép hogyan kezeli a formát, már sokat beszéltünk. Ismételjük át néhány nyelvtechnológiai szakkifejezés felsorolásával, mihez is kezd egy számítógépes nyelvészeti program a szövegekkel, azaz hogyan jut el a szövegtől a szótárig:

  • Tokenizálás: a szavak meghatározása a szövegben (vagyis a szavak elválasztása a szóközöktől, írásjelektől stb. és a többi szótól)

  • Lemmatizálás (vagy stemming): a szótövek meghatározása a tokenekből

  • Parsing: szófaji és morfológiai elemzés (ezt tanulmányoztuk a kacsónak és az ajtóban példákon keresztül)

  • Ezután (vagy már a lemmatizálással párhuzamosan) azonosíthatjuk a szótárból a szavakat.

De hogyan kezeli vajon a számítógép a jelentést?

2. FELADAT

Először is: mit érdemes tárolnunk a számítógépen: morfémákat vagy allomorfokat? Vagyis a , kutya, bokor, alszik stb. szavak esetében, csak a , kutya, bokor, alszik betűsorok vannak a számítógép szótárában, és hozzájuk tárolva a szabályok, hogy hogyan kell a tőváltozatokat létrehozni (mint lov, kutyá, bokr, alud)? Vagy a számítógép tárolja külön a lov, kutyakutyá, bokorbokr, alszikalud betűsorokat, mind a nyolcat? Melyik változat mellett hogyan lehetne érvelni a számítógép okoskodásának ismeretében?

A probléma átgondolása után olvassa el Viszket 2013-ban leírtakat a morféma-allomorf megkülönböztetésről, és fogalmazza meg újra a választ!

Miután a szót megtaláltuk, jelentést kellene társítanunk hozzá. Például mi lehet a kacsó szó jelentése egy számítógép számára? Vagy a fiú, lány, kutya, dédnagypapa, mozgat, szépül stb. szavak jelentése?

Nem sok értelme lenne mondatokban leírni egy számítógép számára az adott szó jelentését, hiszen a definícióként megadott mondat szavainak jelentését sem ismeri.

Biztosan mindenki ismeri azt a jelenséget, hogy egy film megnézése után, ha elég izgalmas volt a cselekmény, néhány héttel vagy hónappal később nem biztos, hogy fel tudjuk idézni, hogy magyarul vagy idegen nyelven láttuk-e (utóbbi esetben esetleg feliratozva). Nem a párbeszédek nyelve, konkrét kifejezései maradnak meg (többnyire), hanem a tartalmuk. Vagyis nem a szavak, hanem a fogalmak az építőkövei az emberi kommunikációnak. Bizonyíték erre az előbbi példában is, hogy egy-egy fogalom több nyelven is megjelenhet, vagy, hogy ugyanaz a szó különböző morfológiai alakban is használható (kicsinyítő képzővel vagy anélkül), vagy ugyanaz a fogalom több, szinonim szóalakban is létezik, vagy, hogy akár egy-egy szó helyett hosszabb leírásokat is mondhatunk. Vagyis, ha a számítógépnek azt tudnánk átadni, hogy az egyes szavak hogyan kapcsolódnak fogalmi szinten egymáshoz, nem kellene a jelentés definiálásával bajlódnunk.

Ezt a fogalmi kapcsolati hálót nevezik ontológiának.

A tudás rendszerezésére különböző tradíciók léteznek. Egy ilyen tradíció például a szótárak, lexikonok készítése is. A számítógépes nyelvészet a filozófiai és a kognitív tradíciót követi. Ez azt jelenti, hogy a szavak közti kapcsolatot mint hierarchiát ábrázoljuk, ahol az egyes szavak jegyeikben különböznek egymástól (pl. a fiú hímnemű gyerek, a lány nőnemű gyerek, de mindketten a gyerek csomópont alá tartoznak), vagy nevezhetjük a szavak közti kapcsolatot relációnak is (a kutya = egy emlős).

3. FELADAT

Lássuk, hogy a relációk és a jegyek segítségével milyen szavakat fejeznek ki ezek a lexikális szemantikai leírások:

a) ?(x,u) ≡ szülő(x,y) & szülő(y,z) & szülő(z,u) & férfi(x)

b) ? ≡ okoz (x, mozog (y))

c) ? ≡ válik (x, szebb (x))

Az a) a dédnagypapa, hiszen x egy olyan férfi, aki szülője y-nak, aki szülője z-nek, aki szülője u-nak. Vagyis ha az a kérdés, hogy x milyen relációban van u-val, akkor a helyes válasz az, hogy a dédnagypapája. Az ?(x,y) kérdésre az apa, az ?(x,z) kérdésre a nagyapa lett volna a jó válasz. A b) válasz a mozgat ige, hiszen x azt okozza, hogy y mozog, a c) válasz pedig a szépül, hiszen a leírás azt fejezi ki, hogy x szebbé válik (a példák és egyéb ontológiai érdekességek forrása Kleiber Judit 2010-es handoutja, PTE BTK Nyelvtudományi Tanszék, ő pedig Kiefer Ferenc (2007): Jelentéselmélet, Corvina, Budapest kötetére hivatkozott).

A legismertebb, a nyelvi tudást összegező ontológia a Wordnet, amit 1990-es évektől kezdtek el fejleszteni. Először az angol nyelvre készült el, aztán további nyelvekre is kiterjesztették: holland, olasz, spanyol, német, francia, cseh, észt, bolgár, görög, román, szerb, török nyelvre, és 2000-ben megkezdődtek a magyar fejlesztések is. A főnévi adatbázis elsősorban az angol elemek fordításával készült, természetesen sok utómunkálattal, az igei adatbázist azonban önállóan kellett felépíteni. Ebben az ontológiában a fogalmi csomópontokat szinonima-halmazok (ún. synsetek) alkotják, pl. {léc, deszka}, {fut, szalad, rohan}. A synsetek között szemantikai kapcsolatok is definiálva vannak, pl.:

– alá- és fölérendeltség (hiper-, illetve hiponímia), pl. {toll}–{írószer}

– rész–egész viszony (mero- és holonímia), pl. {fa}–{erdő}

– ellentét (antonímia), pl. {megszületik}–{meghal}

– egyéb (speciálisabb) viszonyok, pl. tulajdonság (melléknév) és a neki megfelelő attribútum (főnév) közötti reláció, pl. {piros}–{szín}.

Az igék leírásánál speciális tulajdonságokat kellett feljegyezni. A teljesség igénye nélkül, egy igénél pl. nagyon fontos az eseményszerkezet, pl. hogy az adott ige állapotot fejez ki (akar), vagy folyamatot (fut), vagy pontszerű eseményt (elesik), vagy, hogy az adott eseményszerűségnek van-e előkészítő fázisa és/vagy utóállapota. Ezek rögzítése azért hasznos, mert tőlük függ, hogy milyen időhatározókkal bővíthető az adott predikátum, gépi fordítás esetében milyen igeidőt kell választani (futott helyes fordítása (alapesetben) he was running, az elesett fordítása viszont he fell). Az igéknél fontos relációk az implikáció (vásárolfizet), részesemény (álmodikalszik), troponímia (= hiponímia főneveknél) (gitározikzenél), okozás (forgatforog) stb.

A WordNet a legnagyobb, nyelvi határokon átívelő ontológiai adatbázis, de nem az egyetlen. Magyarországon elérhető még a MEO (Magyar Egységes Ontológia, http://www.nytud.hu/oszt/korpusz/meo.html), egy 2004-2006 közötti projekt eredménye, de voltak korábbi kísérletek is ontológia létrehozására. Ilyen volt az MTA Nyelvtudományi Intézetében az ún. GIN projekt (Generalised Inheritance Networks). Egy pécsi példa: a PTE (akkor JPTE) BTK Nyelvtudományi Tanszékén elindított SZÉP-projekt (1999, SzövegÉrtelmező Program), http://lingua.btk.pte.hu/szep.asp.

Az ontológiához szorosan kötődik a szemantikus web fogalma. Ahhoz, hogy az Interneten megtalálható információkat valamilyen tudásbázisba lehessen foglalni, egyik lehetséges út a szavak hálózatának felépítése. Egy másik lehetséges út azonban az Interneten található adatok közötti kapcsolatépítés. Ez részben nyilván az előbb említett ontológiákra támaszkodhat, de akár egyéb, például klikkelésekre és kereséslogokra épülő statisztikákra is. Ez a kapcsolatépítés jellemzi az ún. „szemantikus web”-et (Viszket 2008). A szemantikus web szolgáltatásokról egy részletesebb leírás itt található: http://www.hiradastechnika.hu/data/upload/file/2006/2006_1/HT_0601-4.pdf

4. FELADAT

Idézzük fel a 4) vizsgálat során tapasztaltakat! Vajon hogyan kapcsolható az ontológia fogalma a számítógépes könyvtári katalógusokhoz?

A könyvkatalógusok valójában ontológiák, ahogy a MEO is szakontológia volt, egy adott szakterületnek az ontológiája, úgy a könyvnyilvántartás is az. Az adatbázisoknak az a nagy előnyük, hogy önmagukban alkotnak világmodellt. Nézzünk például egy könyvadatbázist: ennek a világában könyvek vannak, amik adatokkal rendelkeznek. A szerző mezőbe beírt karaktersorral a cím mezőbe beírt karaktersor olyan viszonyban van, hogy a szerző mezőbe beírt karaktersor (vagyis az, amire/akire az referál) írta a könyvet (esetleg szerkesztette, fordította, de mindenképpen véges számú, előre lekódolható módon függ össze a szerző a könyvvel), a kiadó mezőbe beírt karaktersor (által referált entitás) felelős a könyv kiadásáért stb.

Vagyis elvileg egy könyvadatbázisba be lehetne írni ilyen kereső-kifejezéseket (ha lenne erre beviteli felület és hozzá kapcsolódó feldolgozó program), hogy Igaz-e az, hogy aki ír egy könyvet, az többnyire ír egy másikat is? Ezt a kérdést (elvileg) le lehetne fordítani a könyvadatbázisban használatos lekérdező nyelvre. Például lefordítható lehet ez a kérdés egy olyan lekérdezéssé, hogy mennyi az egykönyves és a többkönyves szerzők száma, a két számot összehasonlítva pedig meg lehetne adni a választ, hogy Igaz vagy Hamis.

Természetesen a könyvadatbázisunk világát meghatározza az a tény, hogy a) nem biztos, hogy a világ összes könyvét tartalmazza, ezért csak a saját „tudása”, nyilván-tartása alapján válaszol; b) hogy mivel a szerzőknek nagy valószínűséggel nincs más azonosítójuk, mint a nevük, az ugyanolyan nevű szerzők ugyanannak a szerzőnek fognak számítani.

Mindenesetre még mindig sokkal nagyobb az esély a kérdés megválaszolására természetes nyelven egy könyvadatbázis konkrét adattábláinak és adatmezőinek kontextusában (világmodelljében), mint ha azt képzelnénk el, hogy a Google-ba beírjuk ezt a kérdést, és weboldal-lista helyett egy Igaz vagy Hamis választ kapunk. Ez utóbbinak (feltételezem, belátható módon) igen kicsi az esélye

Krippendorff 1995-öt követve kimondhatjuk, hogy a számítógépes tartalomelemzés (ami feltétele annak, hogy a kérdéseket a számítógép meg tudja válaszolni) akkor lehet sikeres, ha a szókészlet szintaxisa és szemantikája korlátozott; ha a tárgykör kontextusában rejlő logika (okság stb.) vagy explicite meghatározott vagy az adatok tárolási struktúrájában implicite van elrejtve; és ha a tárgykörben szükséges a priori ismeretek és előfeltevések az adatok tárolási struktúrájából vagy járulékos adatokból kiszámíthatóak.

Lefordítom Krippendorff feltételeit: akkor sikeres a számítógépes tartalomelemzés,

- ha olyan szövegeket vizsgálunk, amelyek kevés szót használnak, mindig ugyanabban a jelentésben, és kötött, kevéssé variált mondatszerkezetekkel: ilyenek például az időjárás-jelentés szövegei;

- ha a szövegek témájában a következtetési sémák (ok-okozati viszonyok) vagy definiálva vannak előre, vagy az adatokat olyan struktúrában tároljuk, hogy abból ezek kiderülnek: ilyen például egy tanulmányi nyilvántartó-rendszer, amiben egyértelműen tárolva van, ki mit hogyan teljesített, és ennek mik a következményei;

- és ha a téma feldolgozásához, megértéséhez szükséges további, nyelven kívüli ismeretek a tárolt adatokból kiderülnek: ilyen például egy könyvtári rendszer, aminek a struktúrája (szerző, cím, kiadó, ISBN, méret stb.) meghatároz mindent, amit a könyvek világáról tudni lehet vagy kell.

Ezek a feltételek az adatbázisban való adattároláskor adottak, de egy szövegen belül nem, vagy csak nagyon speciális esetekben (pl. időjárásról szóló szövegek stb.). Érdemes megnézni egy számítógépes nyelvészeti konferencia előadásának címeit:

5. FELADAT

Mi a közös a pirossal bekeretezett címekben?

konf

  1. ábra: Részlet a 2010-es MSZNY-konferencia előadásaiból. Forrás: http://www.inf.u-szeged.hu/mszny2010/mszny2010.pdf

Minden cím korlátozott szintaxisú és szemantikájú szövegek feldolgozásáról szól (panaszlevelek, videó-információk, kórházi zárójelentések, bibliográfiai hivatkozások).

Az ontológiai téma zárásaként álljon itt egy érdekes példa, amikor az ontológiai adatok alapján a számítógépes program generál egy állatmesét:

10

  1. ábra: számítógép által generált mese, ontológia alapján. Forrás: Kleiber Judit (2010): Ontológia. Kézirat. (A forrásként megadott link már nem elérhető)

A mese alapján is állíthatjuk, hogy a jelentés egyelőre nem a klasszikus nyelvtechnológiai programok (mint a helyesírás-ellenőrzők, beszédfeldolgozók, fordítók, keresők) erőssége.

Ha már ennyiszer hivatkozunk a klasszikus nyelvtechnológiai programokra, nézzük meg őket részletesebben!