Zneužít hlas je příliš snadné, varuje student VUT. Lidské ucho syntetickou řeč nepozná

2. září 2021

Ve své diplomové práci Anton Firc prokázal, že syntetický hlas umí snadno oklamat jak lidské posluchače, tak také počítačové zabezpečovací systémy používané například v bankách. Nástroje pro syntézu lidské řeči se v minulých letech natolik zdokonalily, že se dají poměrně snadno zneužít i pro podvodné telefonáty s podvrženou identitou volajícího (takzvaný spoofing). To je do budoucna značná hrozba, zřejmě větší než phisingové emaily.

Poměrně zneklidňující je hlavně to, že k tomu, aby hlasové biometrické zabezpečení přijalo syntetickou řeč, stačila jen desetisekundová nahrávka osoby, za kterou se počítač vydával.

To znamená, že systémy pro syntézu řeči se zvládnou věrohodně naučit cizí hlas už z velmi krátkých nahrávek, pokračuje Anton Firc:

Čtěte také

„Obávám se, že je to jen otázkou času, než syntetickou řeč někdo zneužije. Přestože neexistují pořádné datasety pro češtinu nebo slovenštinu, protože vývoj je zaměřený na angličtinu nebo čínštinu, výroba syntetického hlasu v češtině a slovenštině nevyžaduje žádné velké expertní znalosti.“

Jak dál ve své práci popsal tento student aktuálně doktorského programu na Fakultě informačních technologií VUT, už aktuální syntéza řeči je tak schopná, že dokonce ani lidské ucho neumí případný podvod stoprocentně nebo jednoznačně odhalit.

Nejistota v tomto ohledu – alespoň podle práce Antona Firce – stoupala s věkem posluchačem. Pokud bychom ale systém pro syntézu řeči dále trénovali, tedy pokud by místo desetisekundové nahrávky dostal třeba dvacetiminutovou, dá se úspěšně předpokládat, že věrohodnost syntetického hlasu by se dramaticky zvýšila.

Čtěte také

To je ve spojení s dalším podvodem, před kterým nedávno varovali policisté – takzvaným spoofingem neboli podvrhnutou identitou příchozího hovoru, kdy podvodníci umí volat z čísla, které se nám na displeji mobilu tváří jako některý z našich věrohodných, uložených kontaktů –,  mohlo v budoucnu přinést úplně novou a zneklidňující formu útoků.

Ve své diplomové práci prokázal Anton Firc, že technicky by to bylo možné už teď, zároveň je třeba dodat, že zločinci zatím mají k dispozici mnohem jednodušší a levnější metody. Pořád jim totiž fungují takzvané phisingové emaily. Masového rozšíření podvodných telefonátů se syntetickou řečí – minimálně v češtině – se  ještě bát nemusíme.

Ve svém dalším výzkumu se Anton Firc plánuje věnovat právě tomu, jak se proti takovým útokům chránit, jak zvýšit zabezpečení například zákaznických účtů ovládaných hlasem. Už teď třeba zdůrazňuje, že ověření identity hlasem by se vždy mělo spojovalo se čtením nějaké konkrétního textu, třeba fráze, protože pak je případný podvrh náročnější.

Poslechněte si reportáž Petra Kološe.

autor: Petr Kološ
Spustit audio