Hangot adni azoknak, akik nem tudnak beszélni

Szép és izgalmas területe ez a tudománynak és technológiának, amely széles körben Hawking professzornak köszönhetően vált ismertté. Az azonban nem ennyire köztudott, hogy az első kísérlet a beszédszintetizátor megalkotására már több mint kétszáz éve történt, és ez az első, akkor még mechanikus „beszélőgép” Kempelen Farkas nevéhez fűződik.

Az első beszélőgép

Kempelen 1769-ben a világon elsőként alkotta meg beszélőgépét, mely a befújt levegőt az emberi hanghoz hasonló rezgésekké alakította át. Az egyetlen megmaradt, eredeti példányt ma a müncheni Deutsches Museum őrzi, de rekonstruált, működő másolatai a Saar-vidéki Egyetemen és a Budapesti Műszaki és Gazdaságtudományi Egyetemen is megtekinthetők.  

Alapvetően egy fújtatóval ellátott fadobozról van szó, ami feladta a leckét Kempelennek, több mint húsz éven át próbálta tökéletesíteni és fejleszteni találmányát.

A gép működése tulajdonképpen ugyanazon az elven alapul, mint az orgonáé, az orgona egyik regisztere is az emberi hangról kapta nevét: „vox humana”.

A kezdetleges hangszintetizátort billentyűkkel és nyílások befogásával, bonyolult, összehangolt mozdulatokkal, szinte „kézzel-lábbal” lehetett vezérelni. A gép csak szavakat, rövid mondatokat tudott „kimondani”, de így is a fonetika tudományának nagy mérföldköve. Kempelen pedig élete legnagyobb alkotásának tartotta. Nem mellesleg a gép megépítéséhez végzett kutatásai eredménye az emberi hangképzést részletesen bemutató, korát meghaladó tanulmány.

Érdekes módon korában kevesebb érdeklődésre tartott számot ez a találmánya, mint gondolnánk. Ki tudta akkor, mekkora jelentősége lesz a későbbiekben a mesterségesen generált emberi hangnak, és milyen további fejlesztések előtt nyitja meg az utat Kempelen úttörő munkássága…

Elektronikus beszédszintetizáció

Az első ismert elektronikus beszédszintetizáló rendszer, mely ugyancsak az orgona működésére alapozott, az 1937-es New York-i világkiállításon bemutatott „Voder” nevű szerkezet volt, amelyen szintén nem tudott akárki csak úgy „klimpírozni”, a kiállításon a gépet megszólaltató hölgy állítása szerint egy év gyakorlásra volt szüksége, hogy elsajátítsa a használatát.

A XX. század során aztán egymást követték az immár elektronikus beszédszintetizátor megalkotására irányuló kísérletek, világszerte hoztak létre tudósok több-kevesebb sikerrel működő változatokat. A forradalmi áttörést 1976-ban Dennis Klatt találmánya jelentette. 

Dennis Klatt – a számítógépes beszédszintetizáció atyja

Klatt a hetvenes és nyolcvanas években a Massachusetts Institute of Technology kutatójaként dolgozott. Ő volt a szöveget beszéddé alakító gépek úttörője, aki elsőként hozott létre laikusok számára, szakértői támogatás és előképzettség nélkül is használható felületet. A „KlattTalk”, később a fejlesztésben részt vevő Digital Equipment Corporation után „DECtalk” névre keresztelt rendszer immár lehetővé tette, hogy az egyszerűen begépelt szöveg „megszólaljon”.

Klatt célja egy természetesnek ható, mindenki számára érthető hangot produkáló és könnyen kezelhető rendszer létrehozása volt. Nagyon fontosnak tartotta, hogy az emberi észlelés és beszédértelmezés szempontjaira támaszkodjon, hogy a beszédszintetizátor általi kommunikáció valódi szocializációra alkalmas legyen.

Érdekes módon a hihető női hang megalkotása sokkal nehezebbnek bizonyult, mint a férfihangé. A női beszédhangok természetesnek hangzó szimulálása a férfihangtól eltérő artikulációjuk miatt nehezebb. Nem egyszerű a gyerekhangok esete sem, hiszen a szocializáció szempontjából nagyon nem lenne jó, ha csak felnőtthangon tudna „megszólalni” a beszédre nem képes gyerek. Ideális esetben a hangnak együtt kellene „érnie” használójával (és ha belegondolunk a mutálás kérdésébe, ez igencsak megnehezíti a szakemberek dolgát).

Márpedig Klatt számára nagyon is fontos volt, hogy a beszélő a lehető legjobban kifejezhesse identitását beszédhangjával.

A DECTtalk Gang

Klatt különböző hangokat hozott létre, a hozzájuk társított személyiségek alkották a „DECTalk Gang”-et. A „Beautiful Betty” által megszemélyesített női hanghoz Klatt felesége, a „Kit the Kid” gyerekhanghoz lánya, Laura hangja szolgált alapul. Laura emlékei szerint sok időt töltött apja irodájában, ahol volt egy „cukorkás fiók” is, hogy a hangfelvételek idejét megédesítse számára.  

A férfihanghoz – „Perfect Paul” figurája – Klatt saját hangját használta fel. A későbbiekben pedig Perfect Paul lett Stephen Hawking hangja is.

Klatt's Last Tapes

2014-ben a BBC Radio 4 exkluzív adásában Lucy Hawking, Stephen Hawking lánya mutatta be a beszédszintetizátorok, az apja kommunikációját segítő gépek elődeinek történetét. A műsorban dr. Laura Fine, Dennis Klatt lánya is beszélt édesapja munkásságáról.

Van azért valami meghatóan borzongató abban, amint e két jeles ember lányai elsőként „találkoznak” egymással az éterben… és az apai hang mindkettejük számára ugyanazt jelenti…

Lucy: Az én apám a te apád hangján beszél”. Laura: A te apád életét mennyire megváltoztatták az én apám kutatásai. Nem is gondoltam bele eddig, hogy az apám hangja túlél.

Klattet a nyolcvanas évek elején pajzsmirigyrákkal kezelték, a sugárkezelés hatására hangszálai károsodtak, míg végül teljesen elvesztette hangját. Pont vele történt ez, akinek élete célja az volt, hogy másoknak hangot adjon…

Kollégája és barátja, Joe Perkell egy BBC adásban emlékezett rá. Nagyon szerény és nagyon okos ember volt, aki egy hurrikán közepén is képes lett volna dolgozni, annyira tudott koncentrálni”.

Tudta, hogy nem sok ideje van hátra, mégis a végsőkig folytatta munkáját. Amikor már nem tudott bemenni az irodába, Joe vitte el neki a munkához szükséges anyagokat.

Ötvenévesen, 1988-ban halt meg, épp abban az évben, amikor Stephen Hawking „Az idő rövid története” (A Brief History of Time) című munkája megjelent.

Klatt hagyatéka a beszédkészülékek időrendbe szedett története is, amely a XX. század során kifejlesztett összes készülék felvételének gyűjteményét tartalmazza, ITT megnézhetitek.

A technológa fejlődésével Hawkingnak felajánlották a hangja „upgrade”-elését, válogathatott volna több lehetőség közül, de ő megtartotta Dennis hangját élete végéig.

Dennis barátom hangja az én hangom” – mondta.

A technológia jövője

Hawking a gépi szövegfelolvasó rendszert a szemüvegéhez erősített infravörös kapcsoló segítségével működtette, mely arcmozdulatai révén a képernyőn a megfelelő szavaknál állította meg a kurzort. 

 A fejlettebb „Eye Gaze”-technológia már a szem mozgását használja a szöveg létrehozásához.

Az új beszédszintetizátorok kifinomultsága azt is jelenti, hogy önkéntelen mozgással, esetleg izomgörcsökkel vagy remegéssel élők is használhatják őket (például sztrók vagy szklerózis multiplex esetén).

A beszédre való képesség visszaadásának technológiailag legmagasabb szintjét az agyi implantátumok jelentik, de ez a terület még további kutatásokat igényel széles körű elterjedése előtt.

A hangod te vagy

A BBC adásában szerepel a motoneuron-betegségben szenvedő Simon Fitzmaurice ír rendező is, aki a beszédszintetizátor segítségével kapott új hangot. Az általa használt szintetizátor amerikai hangja annyira személyisége részévé vált, hogy – amint meséli – gyerekei idegenkedve, megzavarodva fogadták – vajon tényleg ő-e az? –, amikor más hanggal kísérletezett.

Fitzmaurice a CereProc, a szintetikus beszéd fejlesztésével foglalkozó skót céggel közösen végzett kutatásokban vett részt, hogy újra „megtalálja a saját hangját”. A CereProc Fitzmaurice korábbi hangfelvételeit, sőt, a hiányok kitöltéséhez apja hangját is felhasználta, hogy olyan beszédszintetizátort készítsen, amely a valódi hangjához a legközelebb áll.

Lenyűgöző technológia, ami egyben arra is figyelmeztet: ha valaki olyan betegséggel él, amely miatt a későbbiekben elveszítheti a hangját, gondoljon arra, hogy előre hangfelvételeket készítsen: így megmentheti identitása egy részét.

Gondoltál már arra, hogy a hangod te vagy?

Kádár Andrea

Források: ITT, ITT és ITT

Kiemelt kép: Getty Images/Bruno Vincent