Věrná imitace cizího hlasu? Není problém, VALL-E od Microsoftu to zvládne hravě

Microsoft přichází s novinkou v oblasti AI a strojového učení, nástroj VALL-E se dokáže naučit imitovat věrně cizí hlas a stačí mu k tomu pouhý třísekundový audio vzorek. Předčil tak nejmodernější TTS (Text-To-Speech) systémy. S technologií jsou ale spojena i rizika.

 

 

VALL-E je výsledkem výzkumu společnosti Microsoft v oblasti převádění textu na řeč. Jedná se o jazykový model neuronového kodeku, který k trénování využívá 60 tisíc hodin anglické řeči.

Není proto divu, že s přesným napodobováním nemá potíže, je to totiž stokrát více než u stávajících systémů. Dokáže imitovat nejen přesnou barvu hlasu, emoce i tón konkrétní osoby, ale stejně tak si poradí i s případnou akustikou místa z originální nahrávky.

Microsoft svůj projekt zveřejnil na webu GitHub, kde si lze zároveň poslechnout i vybrané vzorky zvukových záznamů a porovnat nahrávku od mluvčího s tou uměle vytvořenou.

Stejně jako si tvůrci uvědomují velký potenciál takového nástroje, především do budoucna, tak chápou i jeho možná zásadní rizika. Mezi ty hlavní patří především možné zneužití modelu při identifikaci či rozpoznávání hlasu nebo vydávání se za někoho jiného.

S podobným problémem se potýká také technologie deepfakes, která si naopak pohrává s tváří člověka, který dokáže vyměnit za obličej jiné osoby. Aplikovat ho lze ale nejen na fotografie, ale také na videa.

V případě, že se model zobecní na neviděné mluvčí v reálném světě, měl by obsahovat protokol se souhlasem mluvčího k jeho použití.

 

 

Připravila: Petra Sauerová