Skip navigation

3.9. Beszédfeldolgozás számítógéppel

9. FELADAT

A 2) vizsgálatokban egy számítógépes szövegfelolvasást kellett az emberi szövegfelolvasással egybevetni. Most szükség lenne ezekre a tapasztalatokra! Hol hibázott tipikusan a számítógép?

A beszéddel kapcsolatban három nagy feladata lehet a számítógépnek: fel kell ismernie a beszédet (megkülönböztetni a többi zajtól); le kell tudni írnia, vagy felolvasva egy szöveget elő kell tudnia állítani. (Az ismertetés forrása: Prószéky - Olaszy - Váradi 2006.)

A beszédfelismerés: mit is jelent pontosan.

10. FELADAT

Keressen rá a http://nyest.hu (Nyelv és Tudomány online folyóirat) weboldalon a beszédfelismerés szóra! Milyen témák merülnek fel?

Intelligens keresés, automatikus videó feliratozás, hangvezérelt játék, siketek telefonálása… A nyelvtechnológia dinamikusan fejlődő ága a beszédfelismerés, beszédfeldolgozás.

A beszédfeldolgozás leggyakrabban használt funkciói a diktálás, a parancsszavas vezérlés, a beszélőazonosítás vagy a beszélő-kiválasztás (egy adott csoportból). Két fő típust különböztethetünk meg. Az egyik esetben betanítjuk a programot egy hangmintára (pl. mobilban rögzítjük az egyes személyekhez a becenevet elhangzó alakban). A másik esetben nem kell hangmintát adni, viszont a használható szavak száma korlátozott, és egy véges számú listában kereshető, hogy mely szóval kell a hangmintát beazonosítani (egyes mobilokban hanggal lehet vezérelni a funkció- vagy a személy-kiválasztást).

A számítógép minden esetben a nyelv írott változatából indul ki. Betűsorozatként vannak tárolva a szótárában a szavak. Az elhangzó szavakat is valamilyen módon ezekhez a leírt adatokhoz kell kötnie. Vagyis ebből a szempontból a szöveg felolvasása a „könnyebb” feladat a számítógép számára, könnyebb, mint a hangzó szöveg leírása.

Először a szöveget kell előkészíteni. Ez önmagában is két részből áll. Először előállítják a "nyers beszédjelet", majd ráültetik a prozódiai megformálást. Ez utóbbi szövegtípushoz kötött (másként kell felolvasni egy verset, mint egy hírt, megint másként egy hangosbeszélőben bemondott szöveget stb.). A szöveg-előkészítés kimenete egy olyan betűsorozat, amely tükrözi a korrekt kiejtési formát. Ez lesz a bemenete a hangzó beszéd megvalósításának.

A hangzó beszéd megvalósítása: a program a szöveg előkészítéséből megkapja bemenetként a korrekt kiejtési formát tükröző betűsorozatot. Ezután négy lépésben lehet előállítani a hangzó szöveget (erősen támaszkodva fonetikai ismeretekre): szöveg-hang konverzió; hangsor fizikai megvalósítása (pl. eltárolt hullámformák összekapcsolásával); az időszerkezeti elemek meghatározása (hangidőtartamok, szünetek); a hangsúly- és dallamelemek fizikai ráültetése a nyers hullámformára (a szövegben elhelyezett prozódiai jelölők alapján).

Korábban komoly problémát okozott ennek a négy lépésnek az első két eleme: a szöveg-hang konverzió, illetve a hangsor fizikai megvalósítása. Már 100 éve az az alapja a beszédszintézisnek, hogy emberi hangfolyamból vágunk ki részleteket és ezeket fűzzük új sorrendbe. Az erre vonatkozó első szabadalmat egy magyar feltaláló nyújtotta be (Bánó Miklós 1916-ban. Forrás: Vicsi 2010: 292. oldal). Az 1970-es években a diádok összefűzésével próbálkoztak. A diád két félhangnyi hanghullám, ami az összes lehetséges hangkapcsolódásból tartalmaz egy mintát. Csakhogy az eredmények nagyon rosszak voltak: érthetetlen, recsegő beszéd született.

Nézzünk egy példát (Vicsi 2010 alapján): a Maros szó összeállításához (felolvasásához) hat diádra van szükség: #m, ma, ar, ro, os, s#. Az első kettőt a mama hangsorból nyerték, a harmadikat a farmerből, a negyediket a párokból az utolsó kettőt pedig a bajos szóból. Ezt úgy kell érteni, hogy a mama, farmer, párok, bajos szavakat felolvastatták, rögzítették, és innen nyerték a diádokat, amiket később Maros szóvá próbáltak alakítani. Az eredmény alapján világossá lett, hogy nem lehet tetszőlegesen, csupán a hangkapcsolatokra koncentrálva szegmentálni a hanghullámokat. A hanghullámok annyira egyéniek és időhöz kötöttek, hogy az összefűzés után sem tudják a folyamatos beszéd illúzióját kelteni. Ma is használnak diádokat alapként, de a dallamot, a ritmust, a hangsúlyt egy második szakaszban ültetik rá erre az alapra. A diádok létrehozásának azonban ma már szigorú szabályai vannak. Például csak értelmetlen három szótagos hangsorok felolvasásával állíthatják őket elő, a felolvasónak monoton kiejtést kell megvalósítania, a hangmagasságot és a hangerőt is azonos szinten kell tartania, ami igen nehéz feladat. Továbbá a felolvasást lassan kell végezni, és a szavakat úgy kell olvasni, mint ha mondatot olvasnánk, ugyanis a szóolvasás és a mondatolvasás tempója különbözik, és a diádok létrehozásánál a későbbi mondatfelolvasásokra kell koncentrálni. (Diádok helyett sok helyen triádokat alkalmaznak már a hangsor fizikai létrehozására. Ezek nem egyszerűen két félhangot, hanem két félhang között egy magánhangzót is tartalmaznak, aminek következtében a magánhangzók nem lesznek torzak a gépi beszédben, viszont sokkal nagyobb tárterület kell, bonyolultabb a válogató algoritmus stb.)

A sok felhalmozott tapasztalat és rengeteg befektetett mérnöki munka után a mai felolvasó programokban általában nem problémás a szöveg-hang konverzió és a hangsor fizikai megvalósítása (azaz felismerhető, hogy milyen hangot hallunk a visszahallgatáskor). Ami több gondot okoz, az a hangidőtartamok, a szünetek, és a hangsúly- és dallamelemek pontos elhelyezése. Ez részben a szöveg-előkészítés eredményén múlik. Például a 2) vizsgálatban kijelölt szövegrészletben több párbeszéd található. A párbeszédekre speciális írásjel-használat jellemző. Például a párbeszéd-jelet a gondolatjeltől csak az különbözteti meg, hogy csak a sor elején található, az idézet után nincs újabb gondolatjel (forrás: Laczkó-Mártonfi 2004, 339-340 oldal). Csakhogy, ha több sorból áll a párbeszéd, akkor újabb gondolatjelek következnek, így a számítógép számára a párbeszéd és a gondolatjellel kifejezett mondattagolás (ami két dolognak egészen más ritmusa, hanglejtése van) nem könnyen különböztethető meg egymástól! Sőt, a megszakított idézetek közé is gondolatjel kerül, és az írásjelet (a pontot és a vesszőt) nem a „helyén”, hanem a második gondolatjel és a megszakító szöveg után kell csak kitenni. Idézek a 2) vizsgálathoz megadott szövegből (Rejtő Jenő: Vesztegzár a Grand Hotelben)

- Hiszen én sem tudom!

- Az is igaz - hagyta rá nagy búsan Van der Gullen Félix. - Akkor tehát maradok... - mondta, és leült egy karosszékbe. - Nincs egy cigarettája véletlenül?”

Egy másik probléma az a hangidőtartamok, a szünetek, és a hangsúly- és dallamelemek elhelyezésénél az írásjel-használat mellett a magyar nyelv agglutináló volta és szabad szórendje. A beszédszintézis készítésénél igen nagy különbségek vannak a szókinccsel kapcsolatban. Ugyanis a betanító szöveganyag létrehozásakor arra kell törekedni, hogy a létrehozott lexikon minél jobban megközelítse a használatban elvárt szókincsméretet. Míg az angolban, ahol nem ragozzuk a szavakat és kötött a szórend (vagyis egy bizonyos mennyiségű betanító szöveg alapján jól megjósolható, hogy milyen szó után milyen szó következik, milyen mondatrészi viszonyban), egy 60000 szavas lexikonnal egész jól megvalósítható egy általános beszéd-felismerési alkalmazás, a magyar nyelvre milliónál is több szót tartalmazó lexikon kell ugyanehhez. Ez az oka annak, hogy magyar nyelvre általános megoldás még nem született, csak szűk tématerületű szövegek felismerésére vannak szoftverek, pl. orvosi diktáló rendszerek (hasi ultrahang, endoszkópia), vagy időjárás-jelentés lekérdező rendszerek léteznek (Vicsi 2010: 282. oldal).

Még nem esett szó egy új, nagyon felvirágzó ágáról a beszédtechnológiának: a beszélő érzelmi állapotának felismeréséről. Vagyis amikor nem szövegből beszédet vagy beszédből szöveget akarok előállítani, hanem a beszélő érzelmi állapotáról szeretnék adatokat kapni. Ilyen rendszerek is készülnek, sőt, egyre több ilyen program vesz körül minket, még ha nem is tudunk róla. Telefonos ügyfélszolgálatoknál nem egyszer érzelemdetektáló nyelvtechnológiai alkalmazásokat használnak, elsősorban az ügyfélszolgálatosok kontrollálására: a szoftver figyelmeztetheti a menedzsert, ha valakinél gyakran fordul elő ingerült, haragos érzelmi állapot az ügyfelek vagy az ügyfélszolgálatos beszédében. Ilyenkor a felvételeket ellenőrzik, és az eredmények alapján részben az érzelemdetektáló algoritmust lehet javítani, részben az ügyfélszolgálatos számára lehet tréningeket előírni. Ezeknek a szoftvereknek a működését általában nem publikálják tudományos konferenciákon, mert a programok üzleti titoknak számítanak, mind a fejlesztés, mind a felhasználás szempontjából.

11. FELADAT

Nem esett szó az emberi és a gépi beszédfelismerés összehasonlításáról. Ha rákeres a beszédfelismerés szóra, akkor csak a gépi beszédfelismeréssel kapcsolatos írásokat talál. A beszédpercepció, pszicholingvisztika szavakra együttesen rákeresve nagyobb az esély információhoz jutni az emberi beszédfelismeréssel kapcsolatban. Igaz, elsősorban a beszédpercepció zavarairól, illetve ezek és a tanulási képességek összefüggéseiről talál majd cikkeket. Szépe Judit egy előadásának vázlatában szerepel a beszédpercepció legfontosabb elméleteinek összefoglalása: http://www.szepejudit.com/oktatas/pszicholingvisztika/eloadas4.htm Ennek alapján fogalmazza meg a legfeltűnőbb különbségeket a gépi és az emberi beszédmegértés között!