Ismeretterjesztés

A beszédtechnológia területei

A beszédfelismerés főbb témakörei
A gépi beszédfelismerés távlati célja az  általános a beszéd-szöveg átalakítás környezeti zajtól, beszélőtől és témakörtől függetlenül. Ilyen "mindentudó" beszédfelismerő rendszer még semmilyen nyelvre nem létezik. Azonban szűkítve a témakört, számos részterületen már a gyakorlatban is használható megoldások születtek, illetve koncentráltabb kutatások folynak.
▪ izolált szavas (parancsszó) felismerés: adott, kisméretű szótárban szereplő szavak, kifejezések közül egyet bemondva, a felismerés nagy hatékonyságú lehet
▪ kulcsszó keresés: akár folyamatos beszédben egy kulcsszó halmaz keresése és a találat jelzése
▪ nagyszótáras folyamatos beszéd felismerése: egy adott témakörben elhangzó folyamatos beszéd átírása szöveggé (alacsony hibaarány csak nagymértékben kötött témakör esetén várható)
▪ morfológiailag gazdag nyelveken történő beszédfelismerés: a magyar, finn, török, stb. nyelvek alaktani gazdagságát kezelő nyelvi és akusztikai modellezés kutatása beszédfelismerés céljából
▪ spontán beszéd felismerése: a spontán beszéd sajátosságait kezelő beszédfelismerési módszerek kutatása
▪ zajtűrő beszédfelismerés: zajos környezethez (pl. autóban) alkalmazkodó jelfeldolgozó és modellezési eljárások kutatása
▪ beszélő felismerés: a beszélő személy azonosítása
▪ a beszéd érzelmi töltetének felismerése: érzelmi kategóriák (öröm, harag, félelem, stb.) felismerése a beszéd akusztikai jegyei alapján

A beszédszintézis néhány témaköre, alkalmazása
Kutatási szinten
▪ érzelem kifejezése a gépi beszédben
▪ az emberi hangszín megközelítése
▪ az emberi prozódiai változatosság modellezése

Fejlesztés
A beszédszintetizátort minden esetben hozzá kell illeszteni a tervezett alkalmazáshoz.
▪ beszéd előállítása általános szövegből
    ▪ regényfelolvasás
    ▪ játékok hanggal való ellátása
    ▪ hírfelolvasás
    ▪ időjárásjelentés
▪ szövegfeldolgozás és gépi beszédkeltés célzott alkalmazásokhoz
    ▪ elektronikus-levél felolvasó (beolvassa a telefonba a levél tartalmát)
    ▪ SMS-felolvasó (vezetékes telefonra is küldhető SMS, a gép felolvassa azt)
    ▪ név- és címfelolvasás céginformációkhoz
    ▪ menetrendi információk gépi generálása telefonba és állomásokon
    ▪ banki rendszerek, számlafelolvasók
    ▪ időpont, dátum, devizaárfolyam stb. felolvasók (például kötvényárfolyamok)
    ▪ vakok és gyengénlátók részére készített beszélő alkalmazások számítógépre és mobiltelefonra
    ▪ lakossági beszédinformációs rendszerek
    ▪ nyilvános gyógyszerinformációs rendszer (T: (06-1)-886-94-90) Felolvassa a betegtájékoztató szövegét)
    ▪ beszélő bankautomata (gyengén látókat segíti hanggal a gép kezelésében)
    ▪ telefonos tudakozó az előfizető száma szerint (T: 12-70) (Felolvassa a bebillentyűzött magyar telefonszám előfizetőjének adatait)
    ▪ orvosi területen használt eszköz pl. MONDOM-2000 beszédhallást vizsgáló szűrő készülék (új módszerrel, szintetikus beszéddel méri a hallás károsodását).
        Főleg óvodákban használják.
    ▪ Automatikus ékezet ellenőrzés a szövegben
    ▪ Ékezet nélküli szöveg automatikus visszaékezetesítése

 

A nyelv- és beszédtechnológia meghatározása

A nyelv- és beszédtechnológia célja az ember-ember, az ember-gép kommunikáció hatékonyabbá tétele, az emberi munkavégzés megkönnyítése újszerű, számítógépes termékek és szolgáltatások technológiai alapjainak biztosításával. A nyelv- és beszédtechnológia az írott illetve a hangzó nyelv feldogozásával foglalkozó, egymással összefonódó,  dinamikusan növekvő új iparágak. E technológiák interdiszciplinaritása kivételes: matematikai, informatikai, fizikai, fiziológiai, neurológiai,  nyelvészeti, pszichológia és villamosmérnöki alapokra egyaránt támaszkodnak ezért művelésük magas kvalifikációt és befektetéseket igényel. Nyelvtechnológiára épül az internetes keresés, a gépi fordítás és fordítástámogatás, a helyesírás-elemzés, szövegbányászat, hogy csak a legismertebbeket említsük. A beszédtechnológia ugyan egyelőre kevésbé kiforrott a tömeges használatra, de már lehetővé tesz részben automatizált ügyfélszolgálatokat, a tanítás nélkül is használható hangtárcsázást,  sms- és e-mail- és képernyő-felolvasást, audio és video anyagokban történő automatizált keresést, orvosi diktálási feladatokat, stb. Reményeink szerint a nem túl távoli jövőben a magyarról és a magyar nyelvre történő beszédfordítás is elérhető közelségbe kerül.

A nyelv- és beszédtechnológia története

A nyelv- és beszédtechnológia, amelyet a mesterséges intelligencia kutatás területe alá is szokás sorolni, kialakulását tekintve megelőzi azt. Az első próbálkozások több, mint 200 évre nyúlnak vissza és a beszéddel kapcsolatosak. Kempelen Farkas 1791-ben mutatta be a világ első olyan gépét (beszédszintetizátorát), amellyel beszédhez hasonló hangsorokat tudott előállítani. Tulajdonképpen ezt nevezhetjük a világ első artikulációs elven működő beszédelőállító gépének. Kempelen tehát 200 évvel megelőzte korát. Tudományos kutatásának eredményeit a Mechanismus der Menschlichen Sprache című könyvében foglalta össze (Bécs, 1791). Megállapításaival megalapozta a fonetika tudományát.

A beszédszintézis további fejlődése a 20. század elejétől folytatódott. A hangrögzítés és az elektronika fejlődésével párhuzamosan jöttek létre különböző kutatási eredmények. Büszkék vagyunk arra, hogy az első gépi szövegfelolvasással kapcsolatos szabadalmi bejelentés szintén magyar szakember nevéhez fűződik. Bánó Miklós 1916-ban adta be a Szabadalmi Hivatalba (74361 sorszám alatt) a következő találmányt: Tetszőleges szöveg reprodukálására alkalmas beszélőgép. A szabadalmat 1919-ben meg is kapta. Az elgondolás egy elektromechanikus megoldást javasolt, beszédhangok egymás utáni összekapcsolását párhuzamosan futó viaszhengerekről (ez hasonló elv, mint a mai elemösszefűzéses technikák).

A következő lépcsőfok a teljesen elektronikus beszélőgép volt kézi vezérléssel. A Bell Laboratóriumban mutatták be 1939-ben a Voice Demonstrator (VODER) nevű, angolul beszélő eszközt, amelyet egy képzett személy klaviatúrával tudott vezérelni. A VODER folyamatos beszédet tudott előállítani. Az igazi áttörés a beszédszintézisben az 1950-es évektől kezdve történt meg, amikor a számítógépek segítségével már a beszédszintetizátor vezérlését is automatizálni lehetett. Az első magyar beszédszintetizátort 1979-ben fejlesztették ki az MTA Nyelvtudományi Intézetének Fonetikai Laboratóriumában (Olaszy Gábor és munkatársai). Ez a gép az Intézet állandó kiállításán megtekinthető és hangja meghallgatható. A beszédfelismerésre irányuló kutatások később kezdődtek és a számítástechnika rohamos fejlődése segített, hogy mára már jelentős eredmények születtek ezen a területen is.

A számítógépes nyelvészet területén a kezdeti lépéseket az Amerikai Egyesült Államokban tették meg az 1950-es években, amikor is számítógépek segítségével próbáltak idegen nyelvű szövegeket, elsősorban orosz tudományos írásokat angolra fordítani. Mivel a számítógépek sikerrel bizonyították, hogy matematikai műveleteket lényegesen gyorsabban hajtanak végre, mint az emberek, úgy vélték, hogy rövid időn belül, a technikai részletek tisztázása után, arra is képesek lesznek, hogy ezekhez hasonlóan az emberi nyelvet is kezelni tudják.

Az első gépi fordítási kísérletek azonban kiábrándító eredményeket hoztak, mivel nem sikerült precíz fordításokat készíteniük, és a kutatóknak be kellett ismerniük, hogy a nyelv gépi feldolgozása lényegesen komplexebb feladat, mint azt korábban gondolták. Amikor az 1960-as években a mesterséges intelligencia kutatások is elkezdődtek, a nyelv- és beszédtechnológia ennek a tudományágnak a részévé vált, amely a természetes nyelvek emberi szintű megértésével és produkciójával foglalkozik.

Ahhoz, hogy egy nyelvről egy másikra fordítani tudjunk, meg kell értenünk, hogy a nyelvtanuk miképp épül fel, milyen konstrukciók vannak benne, miképp működnek benne a hagyományosan alaktanként és mondattanként megnevezett részek is. A mondattan sikeresebb megértéséhez ugyanakkor elkerülhetetlen, hogy rendszerünk tisztában legyen a jelentéstan és a lexikon működésével és legalábbis alapfokú pragmatikai, nyelvhasználati tudásnak is birtokában legyen. Az alaktani ismeretek alkalmazásakor nélkülözhetetlen a fonológia és a fonetika alkalmazása, különösen, ha beszédtechnológiai alkalmazásokat kívánunk fejleszteni. Így a kezdeti fordításra irányuló erőfeszítéseknek köszönhetően egy új tudományág jött létre, amelynek fókuszában az áll, hogy miképp tudunk reprezentálni és feldolgozni természetes nyelveket számítógépek segítségével.

A nyelv- és beszédtechnológia részterületei

A nyelv és beszédtechnológia két részre osztható: az írott karakterekkel való munkálkodás, illetve a beszéddel, mint akusztikai produktummal való foglalkozás. Az előbbi témakörrel főleg a számítógépes nyelvtechnológia foglalkozik, az utóbbival pedig a beszédtechnológia. A kettő némely témaköröknél összefolyik (például hangsúlyjelölés a szöveg alapján nyelvi elemzéssel beszédszintézis segítésére).

Néhány a legfontosabb kutatási területekből:

▪ beszédfelismerés és beszédszintézis
▪ számítógéppel segített korpusznyelvészet
▪ természetes nyelvi adatok feldolgozása és felosztása (pl. mondattani vagy morfológiai elemzés, tövezés, tokenizálás)
▪ címkéző alkalmazások (pl. szófaji beazonosítás, vonzatkeret alkalmazások)
▪ szóhangsúlyok gépi kiosztása az írott szövegben mondat szinten
▪ logikai, szemantikai ismeretek alkalmazása
▪ a természetes és formális nyelvek kapcsolatának általános vizsgálata
▪ gépi fordítás, fordítástámogatás
▪ helyesírás- illetve nyelvhelyesség-ellenőrzés
▪ szövegkivonatolás
▪ beszédakusztika