Tech
Esélyes a durva átverés: ez a különbség a mesterséges intelligencia-hangok és az emberi között
A mesterséges intelligencia-hangok ma már kísértetiesen valósághű beszédet képesek létrehozni. Vajon van rá mód, hogy megkülönböztessük őket a valódi emberi hangtól?
A mesterséges intelligencia-hangok valósághű emberi beszéd-képzése kapcsán jelentős probléma van kibontakozóban. Ugyanis napjainkra a mesterséges intelligenciával (MI) működő beszédszintetizátorok kísértetiesen valósághű beszélgetéseket képesek megalkotni: nyomatékosítanak, suttognak, s ma már a hangok klónozása is lehetséges.
Beszélgetést kezdeményezni az MI-vel meglehetősen egyszerű. Elég pár kérdést feltenni a chatbotnak, amely akár szóban is lenyűgöző választ adhat. Mi több, több nyelven tud csevegni, ha kell, akár akcentussal vagy adott nyelvjárásban beszél.
A mesterséges intelligencia-hangok és MI-alapú beszédklónozó eszközök ma már használhatók valódi emberek hangjának reprodukálására.
Jó példa a közelmúltbeli eset a néhai brit műsorvezető, Sir Michael Parkinson, vagy a természettudós, David Attenborough hangjának klónozása, utóbbit egyébként nagyon felháborította a dolog.
Egyre tökéletesebbek a mesterséges intelligencia-hangok
Tény, hogy egyes esetekben a technológiát használhatják kifinomult csalásokra – de nem minden mesterséges intelligencia által generált hangot alkalmaznak rossz célokra.
A nagy nyelvi modellekkel működő chatbotokba a technológia be van építve, így sokkal természetesebb és meggyőzőbb módon válaszolnak, beszélnek.
Olvasd el ezt is: Mélyhamisítás – már a megtévesztést is mesterséges intelligencia csípi fülön

A ChatGPT hangfunkciója már most képes válaszolni a hangszín variációival és bizonyos szavak hangsúlyozásával – a mód nagyon hasonlít ahhoz, ahogyan az emberek empátiát és érzelmeket fejeznek ki.
A mesterséges intelligencia emellett nem verbális jelzéseket is fel tud venni – például sóhajt és zokogást imitál. Beszél vagy 50 nyelven, képes ékezeteket megjeleníteni menet közben és nyomatékosítani. Sőt, telefonhívásokat kezdeményezhet a felhasználók nevében, hogy segítsen a feladatok megoldásában. Az OpenAI egyik bemutatóján például a rendszer epret rendelt egy eladótól.
Felvetődik azonban a kérdés: van-e valami egyedi az emberi hangban, ami segít megkülönböztetni azt a mesterséges intelligencia-hangoktól?
Lehetséges a mesterséges intelligencia-hangoktól megkülönböztetni az emberit?
Jonathan Harrington, a Müncheni Egyetem fonetika és a digitális beszédfeldolgozás professzora egyetért azzal, hogy az MI-alapú hangszintetizátorok képességei lenyűgözőek.
„Az elmúlt 50 évben, s különösen az utóbbi időben a beszédgeneráló/szintézis rendszerek annyira jók lettek, hogy a mesterséges intelligencia által generált és a valódi hangot gyakran nagyon nehéz egymástól megkülönböztetni”
– mondta, noha ő évtizedeket töltött azzal, hogy az emberi beszédmódot, a szavak hangjának, az akcentusok létrehozásának bonyolultságát tanulmányozza.
Vannak azonban fontos jelek, amelyek segíthetnek megállapítani, emberrel vagy mesterséges intelligencia-hanggal van-e dolgunk – hangsúlyozta.
Egy kísérlet keretében a New York-i Egyetem Stern School of Business vezetője, Conor Grennan hangklippárokat készített: egyiken ő maga olvasott fel, a másikon az ElevenLabs szoftvercég MI beszédklónozó eszközével generálták a szöveget.
A szövegeket hallgatók között volt Steve Grobman, aki a McAfee kiberbiztonsági vállalat technológiai igazgatója. Mint mondta, a beszédek hallgatásakor határozottan voltak dolgok a beszéden túl – például a belélegzés -, ami miatt inkább emberi beszédre gondolt, de a ritmus, az egyensúly és a tónus okán a mesterséges intelligenciára voksolt volna.
Képzetlen emberi fül számára mindenesetre sok mesterséges intelligencia-hangot nehéz lehet felismerni.
Grobman szerint az emberek valóban nem túl jók ebben. Ám a a mélyhamisítás-észlelő szoftver segít azonosítani azokat a jellemzőket, amelyeket az emberi fül elmulaszthat.
„Mindig figyeljük a mondanivaló kontextusát, mert a gyanúsan hangzó dolgok valószínűleg hamisítványok”
– jegyezte meg a szakember.
Ha mesterséges intelligencia-hangokról van szó, Pete Nicoletti kiberbiztonsági szakértő, a Check Point Software fenyegetéselemző platform globális információbiztonsági igazgatója kiemelte: hanglejátszás közben általában a természetellenes beszédmintázatokra, például a szabálytalan szünetekre és a kínosnak tűnő kifejezésekre figyel.
A torzítások és a nem megfelelő háttérzaj szintén gyanúsak lehetnek. Érdemes figyelni a hangerő, a ritmus és a hangszín korlátozott eltéréseit is – megtörténhet ugyanis, hogy a néhány másodperces hangból klónozott mesterséges intelligencia-hangok nem rendelkeznek az emberi hang teljes tartományával.
Ha túl tökéletes a beszéd, azok mesterséges intelligencia-hangok lehetnek
Harrington professzor szerint a mondatban adott szavak kiemelésének figyelése ugyancsak jó trükk lehet arra, hogy azonosítsuk a számítógéppel generált beszédet. Az emberek ugyanis hangsúlyozással adnak több jelentést egy mondatnak a párbeszédben.
Emellett a mondat felosztásának módja is megváltoztathatja annak jelentését – így a megfogalmazás is árulkodó lehet.
A beszéd e három eleme sokat segíthet a mesterséges intelligencia-hangok észlelésében. A számítógéppel generált beszéd elég szegényes és nem túl emberi – fogalmazott Jonathan Harrington.
Persze, ahogy a technológia fejlődik, az MI egyre ügyesebben reprodukálja a beszéd ezen aspektusait is. A hangklónozás valós veszélyt jelent például a vállalkozások számára. Hamisított hangüzenettel akár hitelesítő adatokat is lophatnak.
Dane Sherrets, aki a HackerOne cégnél a feltörekvő technológiák innovációs tervezője, elmondta: módszereket kell kifejleszteni annak igazolására, hogy tudjuk: valóban azzal a személlyel beszélünk, akinek gondoljuk az illetőt. Egy vállalatnál nem kell elektronikus átutalást végrehajtani csak azért, mert hangüzenetet kaptunk a cég vezérigazgatójától. Személyes kérdések feltevésével – például, mi a kedvenc dalunk? – ugyancsak elejét lehet venni a hamis hangok okozta problémáknak.
Ha azt gyanítjuk, hogy mesterséges intelligencia adja ki valakinek magát, a legjobb, ha úgy reagálunk: visszahívjuk – majd hívjuk fel a megadott számon.
Michael McNerney, a Resilience kiberkockázati biztosító cég biztonsági alelnöke a mesterséges intelligencia-hangok kapcsán azt mondta: a botlás a szavakban, valamint a levegővétel nagyon emberi dolog. Tehát ha a dolgok túl tökéletesek, az azt jelezheti hogy a mesterséges intelligencia-hanggal, hamisítvánnyal van dolgunk.
Olvasd el ezt is: Demencia esetén segíthet a mesterséges intelligencia
(Via)
Hozzászólás küldéséhez be kell jelentkezni.














