Wystarczą 3 sekundy, by ukraść Twój głos

Lepiej uważać na głuche telefony. Nowe AI potrafi skutecznie naśladować czyjś głos i sposób mówienia, a do nauki wystarczy jej nawet 3-sekundowa próbka.

nauka
Arkadiusz Strzała10 stycznia 2023
7
Źrodło fot. Thomas Le / Unsplash
i
W SKRÓCIE:
  • Microsoft stworzył AI naśladujące głos na podstawie kilkusekundowej próbki.

Microsoft opublikował dokumentację swojej nowo opracowanej sztucznej inteligencji VALL-E, która potrafi imitować ludzkie głosy. Nie byłoby w tym nic dziwnego – wszak mamy już wiele systemów przetwarzających tekst na mowę (TTS). Ale AI Microsoftu może jednak całkiem skutecznie naśladować czyjś głos, tembr i emocje, ucząc się na podstawie zaledwie 3-sekundowej próbki.

Interaktywna papuga?

Wystarczy krótkie nagranie, by sieć neuronowa opracowała kodek dźwiękowy, który może „powiedzieć” dowolny tekst, a rozmówca będzie miał wrażenie, że konwersuje z prawdziwą osobą. VALL-E zostało wytrenowane na bazie 60 tys. godzin próbek mowy angielskiej. Na stronie (link wyżej) są dostępne specyfikacja i demonstracyjne nagrania audio.

VALL-E Microsoftu może zagrozić pracy aktorów podkładających głos w filmach i kreskówkach (choć raczej jeszcze nie teraz), ale nie tylko. Skoro systemy imitujące głos stały się tak zaawansowane i zarazem proste w użyciu, może pojawić się np. nowy typ oszustwa telefonicznego, polegającego na podszywaniu się pod bliskich. Odbierzemy pozornie głuchy telefon, a kilka słów wystarczy, by sieć neuronowa po drugiej stronie nauczyła się naśladować nasz głos.

Arkadiusz Strzała

Arkadiusz Strzała

Swoją przygodę z pisaniem zaczynał od własnego bloga i jednego z wczesnych forum (stworzonego jeszcze w technologii WAP). Z wykształcenia jest elektrotechnikiem, posiada zamiłowanie do technologii, konstruowania różnych rzeczy i rzecz jasna – grania w gry komputerowe. Obecnie na GOL-u jest newsmanem i autorem publicystyki, a współpracę z serwisem rozpoczął w kwietniu 2020 roku. Specjalizuje się w tekstach o energetyce i kosmosie. Nie stroni jednak od tematów luźniejszych lub z innych dziedzin. Uwielbia oglądać filmy science fiction i motoryzacyjne vlogi na YouTube. Gry uruchamia głównie na komputerze PC, aczkolwiek posiada krótki staż konsolowy. Preferuje strategie czasu rzeczywistego, FPS-y i wszelkie symulatory.

Nowe karty graficzne AMD użyją „wolnej” pamięci, to spore rozczarowanie

Nowe karty graficzne AMD użyją „wolnej” pamięci, to spore rozczarowanie

Lepsze celowanie w strzelankach: to powinieneś robić z każdym gamepadem

Lepsze celowanie w strzelankach: to powinieneś robić z każdym gamepadem

O co chodzi z darmowym dronem z Temu i dlaczego łatwiej znaleźć igłę w stogu siana

O co chodzi z darmowym dronem z Temu i dlaczego łatwiej znaleźć igłę w stogu siana

Reklamy stopniowo trafiają do użytkowników Windowsa 11, pojawią się w menu Start

Reklamy stopniowo trafiają do użytkowników Windowsa 11, pojawią się w menu Start

Audiofilski smartfon nie brzmi jak hit, ale z tą ceną może być jedną z najciekawszych nisz na rynku

Audiofilski smartfon nie brzmi jak hit, ale z tą ceną może być jedną z najciekawszych nisz na rynku