Skip navigation

3.13. Korpuszok

A fejezet során sokszor támaszkodtunk korpuszokra. „A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat).” Forrás: http://corpus.nytud.hu/mnsz/, letöltés ideje: 2010. november 2. Két ajánlott korpuszgyűjtemény: http://www.nytud.hu/adatb/index.html és http://hlt-platform.hu/offline-adatbazisok.html.

Prószéky – Olaszy – Váradi (2006) és Vicsi (2010) alapján a következő korpuszokat szeretném elsősorban kiemelni:

(1) http://www.nytud.hu/hhc/ Történeti Korpusz. Az Akadémiai Nagyszótárhoz kötődik.

25

  1. ábra: Prószéky-kód
    Forrás: http://www.nytud.hu/hhc/ Történeti Korpusz.

(2) http://corpus.nytud.hu/mnsz/ Magyar Nemzeti Szövegtár. A használathoz regisztrálni kell! Mivel a Történeti Korpusz diakrón, ezért kellett mellé szinkron korpusz is. Ez lett a Magyar Nemzeti Szövegtár, ami 1997-ben indult (MTA Nyelvtudományi Intézet, Korpusznyelvészeti Osztály). Ötféle nyelvhasználatot tükröz: sajtó, szépirodalom, tudományos értekező próza, hivatali nyelvhasználat, személyes közlés. Ezek mind részkorpuszok. Összesen több, mint 150 millió szövegszó. Forrásai: sajtó – online újságok (ez a teljes korpusz fele); szépirodalom – Digitális Irodalmi Akadémia; tudományos próza – Magyar Elektronikus Könyvtár; hivatali nyelv – minisztérium, önkormányzat elektronikus szövegei (főleg Országgyűlési Jegyzőkönyvek); személyes közlés – index.hu, Törzsasztal fórum. Minden szövegszó morfológiailag elemzett alakban szerepel (a használt morfológiai elemző: Morphologic, Humor). Vannak többféleképpen elemezhető szavak (pl. várunk). Egyedülálló teljesítmény, hogy 97,4%-os pontosságú a szavak egyértelműsítése! A felhasznált módszer: statisztikai alapú (SZTE adta a kidolgozott eljárás alapjait). Fontos jellemzője még ennek a korpusznak, hogy határon túli nyelvváltozatokat is tartalmaz, alkorpuszok formájában! Vagyis összesen öt regionális nyelvváltozat és öt stílusréteg van képviselve a gyűjteményben.

(3) http://www.inf.u-szeged.hu/projectdirs/hlt: Szeged Korpusz. A legnagyobb kézzel annotált természetes nyelvi korpusz, 1,2millió szövegszó, 155500 különböző szóalak, 250ezer írásjel, teljes szintaktikai elemzéssel!

(4) http://mokk.bme.hu/resources/webcorpus: Magyar webadatbázis, több, mint 1,48 milliárd szó (szűretlenül, 589 millió megszűrt szó), így a legnagyobb magyar gyűjteményünk.