Az igazi dr. Doolittle: a mesterséges intelligencia, ami lefordítja neked a kutyaugatást
Képzeld el, milyen lenne, ha minden egyes ugatásból, morgásból, nyüszítésből megállapíthatnád, mit akar közölni a kutyád. Vagy valaki másnak a kutyája, hiszen a saját állatod jelzéseit, amennyiben érzékeny megfigyelő vagy, talán megtanultad jobban dekódolni. De tegyük fel, hogy a rendelkezésünkre állna egy mesterségesintelligencia-alapú applikáció, ami segítene lefordítani a kutyák, macskák, vagy akár más állatok vokális kommunikációját! Ezt az izgalmas lehetőséget kezdte vizsgálni a Michigani Egyetem kutatócsoportja, ígéretes első eredményekkel. Milanovich Domi írása.
–
Az állatok hangadását illetően három fő kérdést szoktak kiemelni a szakértők:
-
Melyek az állatok által használt fonémák, a hangzó közlésfolyamat legkisebb észlelhető egységei, olyanok, mint az emberi beszédben a hangok? Ez madárcsicsergésnél, macskanyávogásnál vagy a delfinek kommunikációjakor korántsem egyértelmű.
-
Milyen szabályok vonatkoznak ezeknek az egységeknek a kombinálására, hogyan lehet összefűzni őket?
-
Hordoznak-e ezek az összefűzött egységek jelentést? Lehet-e belőlük következtetni valamilyen tartalomra, a közlő fél helyzetére, belső állapotára?
Egy frissen publikált tanulmány szerzői – Artem Abzaliev és munkatársai – utóbbi kérdés kapcsán vizsgálták meg, hogy a mesterséges intelligencia (MI) képes-e értelmezni a kutyák hangját: különbséget tud-e tenni például az ugatás játékos, agresszív, félelemteli formái között kizárólag hang alapján.
Az eredmények azt mutatják, hogy az eredetileg emberi beszédre tervezett MI-modellek kiképezhetők az állati kommunikáció dekódolására, ami új utakat nyithat meg a szőrös barátaink megértésében. Ez pedig nemcsak az ember–kutya kapcsolat minőségét javíthatja, hanem a négylábúak jóllétét is, hiszen így még kielégítőbben gondoskodhatunk a szükségleteikről.
De nézzük röviden, mi történt a kutatásban!
Létrehozni az adatállományt
Ahhoz, hogy a mesterséges intelligencia fejlődhessen, minden esetben adatokra van szükség. Ennek kapcsán megtudtam, hogy az állati hangoknak bámulatos gyűjteményei léteznek világszerte (például az Animal Sound Archive, amely 1800 madár- és 580 emlősfajra terjed ki), ám ezek az archívumok egyelőre korlátozottan hozzáférhetők. Így Abzalievék kutatásának az is a része volt, hogy egyáltalán rögzítsék a kutyák hangját. Ehhez az ebek természetes környezetébe látogattak el, ami 74 mexikói háztartást jelentett: itt éltek gazdáikkal azok a csivavák, francia uszkárok és schnauzerek, akiket bevontak a vizsgálatba. A legkisebb kutya még kölyök volt, mindössze 5 hónapos, a legidősebb 7-8 éves, átlagban pedig 3 év körüliek voltak.
Az adatfelvétel során különböző helyzeteket szimulált a gazdával együttműködésben a kísérletvezető:
volt, hogy durván bedörömbölt az ajtón, máskor úgy tett, mintha megtámadná a gazdát, de készítettek felvételt arról is, amikor a gazdi játékot kezdeményezett a kutyával, a sétát megelőző rutinokat hajtott végre, vagy pórázzal kikötötte, majd rövid időre magára hagyta az állatot.
A sokórányi felvételt később rövid, 0,3-5 másodperces hangszegmensekre bontották a kutatók. A részt vevő kutyák közül hétnek a felvételeit megőrizték tesztelésre, a többin ment a mesterséges intelligencia betanítása (kivétel, amikor az egyedi kutya felismerését mérték, ahhoz természetesen minden ebtől kapott mintát a modell).
Forradalmasíthatja a fajközi a kommunikációt
Érdekes volt a kutatásban, hogy az emberi beszéddel „edzett” MI-modell minden feladat esetén jobban teljesített, mint az, amelyiket a nulláról igyekeztek kiképezni. Úgy tűnik, van valami a beszédfeldolgozásban való jártasságban, amitől a kutyaugatás árnyalatait is könnyebben megérti a gép. De ami ennél is izgalmasabb, hogy a beszédfeldolgozó modell közel 50 százalékos pontossággal meg tudta határozni, melyik konkrét kutyától származhat a hangminta,
62 százalékos biztonsággal pedig be tudta jósolni a kutya fajtáját – a szerzők azt írják, a fajta ugatásból való felismerése körülbelül annak feleltethető meg, mint amikor különbséget teszünk az akcentusok között.
Ami a legkevésbé ment az MI-nek, az a nem bejóslása: úgy tűnik, a nemi jelzések kevésbé egyértelműek a modell számára, mint akár az egyed, akár a fajta azonosítása. És végül, a mesterséges intelligencia nagyjából különbséget tudott tenni a negatív és örömteli vonítás, morgás között, de mintegy 50 százalékos pontossággal képes volt meghatározni az idegenre adott normál, valamint az idegenre adott agresszív ugatást is. Persze ebből látszik, hogy azért még messze vagyunk attól, hogy az MI „értsen a kutyák nyelvén”, de tekintve a technológia rohamos fejlődését, ez a talán a nem is annyira távoli jövőben bekövetkezik.
Sok ember számára segítséget jelenthetne, ha akár a háziállatok hangjelzései, vagy akár a csecsemők sírásának – ami szintén vokális, de nonverbális kommunikáció – megértéséhez kapna mankókat, így nagyobb biztonsággal tudna következtetni a kifejezni vágyott érzelmekre, problémákra (félelemre, magányra, éhségre, álmosságra), hogy még érzékenyebb válaszokat adhasson. A szülők jelentős része persze képes különbséget tenni a gyereke sírástípusai között, de ez egyrészt kezdetben nehéz, másrészt vannak olyan felnőttek, akiknek különböző neurológiai vagy pszichés állapotok miatt ez nehezebben megy.
Ha pedig létezne egy program, ami több millió csecsemő sírásából tanulva tippeket adna, az közelebb vihetné a szülőket a gyerekeikhez, amennyiben a felnőttek jól használják a gépet, és a gép megfelelő módon van kifejlesztve.
De ha kizárólag az MI-re támaszkodunk, az ebben az esetben is inkább távolítani fog minket a szeretteinktől és a saját belső tapasztalataink valóságától egyaránt.
És az állatokra visszatérve: abba is felkavaró belegondolni, mi mindent mondanának nekünk, mennyi fájdalmat osztanának meg velünk, ha egyszer tényleg értenénk a nyelvüket (Iliás-Nagy Katalin állatvédelmi riportját itt olvashatod el).
Kiemelt képünk illusztráció – Forrás: Canva / GoodLifeStudio