Dokážete rozlišit skutečný lidský hlas od hlasu vytvořeného umělou inteligencí? Pravděpodobně ne. A nejste v tom sami. Nová studie zveřejněná v časopise eNeuro ale přináší nečekaně povzbudivé zjištění: i když vědomě selháváte, váš mozek už na rozpoznávání AI hlasů tiše pracuje.
Výzkumný tým pod vedením Xiangbin Tenga z Tianjinské univerzity a Čínské univerzity v Hongkongu provedl experiment s třiceti účastníky. Každý z nich poslouchal věty namluvené skutečnými lidmi a jejich AI kopie vytvořené pomocí systému GPT-SoVITS. Úkolem bylo určit, zda hlas patří člověku, nebo stroji. Výsledky na úrovni vědomého rozhodování? Tristní. Účastníci v tom měli úspěšnost srovnatelnou s náhodným hádáním.
Zajímavější příběh se ale odehrával pod povrchem.
Mozek pracuje dřív než vědomí
Během experimentu nosili účastníci EEG čepice, které snímaly jejich mozkovou aktivitu. A právě tady se ukázalo něco pozoruhodného. Po pouhých dvanácti minutách krátkého perceptuálního tréninku (kdy byly hlasy explicitně označeny jako lidské nebo umělé) začal mozek reagovat na AI hlasy měřitelně jiným způsobem.
Výzkumníci identifikovali tři klíčové okamžiky, ve kterých se neuronální odpovědi na skutečný a syntetický hlas lišily: přibližně 55 milisekund, 210 milisekund a 455 milisekund po začátku zvuku. Všechny tři momenty spadají do raných fází sluchového zpracování, tedy daleko před tím, než se zapojí vědomé rozhodování. Jinými slovy, sluchový systém začne falešné hlasy „tagovat” jako odlišné, ale tato informace se zatím nepropojí s vědomou schopností říci „tohle je AI”.
V čem se AI hlasy liší
Součástí studie byla i akustická analýza samotných hlasových vzorků. Rozdíly mezi skutečnou a syntetickou řečí se ukázaly v rozmezí modulačních frekvencí 5,4 až 11,7 Hz. Toto frekvenční pásmo souvisí s tím, jak mozek sleduje rychlé řečové detaily, tedy jednotlivé fonémy a začátky slabik.
AI hlasy, a to i ty jemně doladěné (tzv. fine-tuned), tyto jemné variace zatím neumí dokonale napodobit. Právě v nich se skrývá jakýsi „akustický otisk”, který lidský sluchový systém zachytí, přestože si to jeho majitel neuvědomuje.
Proč je to dobrá zpráva
Výsledky studie mají důležitý praktický rozměr. Hlasové deepfaky představují reálnou hrozbu, od podvodných telefonátů přes manipulativní audionahrávky až po falšování identity. Zatímco současné technické detektory deepfaků čelí neustálému závodu s vylepšujícími se generátory, lidský mozek nabízí alternativní cestu.
Klíčové zjištění spočívá v tom, že biologický „hardware” pro rozpoznávání falešných hlasů funguje. Chybí ale propojení mezi nevědomou detekcí a vědomým rozhodnutím. To otevírá prostor pro vývoj cílených tréninkových programů, které by lidem pomohly vědomě rozpoznat to, co jejich mozek už zachytil.
Místo obecných rad typu „buďte opatrní při telefonátech” by tak v budoucnu mohly vzniknout konkrétní tréninkové metody zaměřené na specifické akustické znaky, které AI hlasy zatím nedokážou simulovat. Teoreticky by mohly pomoci i techniky neurofeedbacku, které by posílily propojení mezi nevědomou neuronální reakcí a vědomou percepcí.
Závod pokračuje
Je třeba dodat, že studie pracovala s konkrétním generátorem AI hlasů (GPT-SoVITS) a relativně malým vzorkem třiceti lidí. Syntetické hlasové technologie se navíc neustále zdokonalují. Frekvenční pásmo, ve kterém dnes AI hlasy zaostávají, může být překonáno další generací modelů.
Přesto je zjištění zásadní: lidský sluchový systém je ve zpracování řeči mimořádně sofistikovaný a dokáže zachytit nuance, které vědomému vnímání zatím unikají. Výzva teď stojí před neurovědou i bezpečnostním výzkumem: jak tuto skrytou schopnost mozku přetavit v praktický nástroj obrany.
Zdroj: Digital Trends