Microsoft potrafi ukraść twój głos. Wystarczą trzy sekundy

12 stycznia 2023 2 minuty czytania

Sztuczna inteligencja ostatnio podbija internet. Zarówno chińskie programy SI, które zmienia zdjęcia ludzi w postacie z anime, jak i AI przedstawiające poszczególne kraje jako czarne charaktery zdobywają popularność w błyskawicznym tempie. Teraz z kolejną „propozycją” przychodzi Microsoft.

Oprogramowanie zaprezentowane przez amerykańskiego giganta nazwano VALL-E. Co w nim niezwykłego? Potrafi błyskawicznie „ukraść” twój głos.

Sztuczna inteligencja od Microsoftu, która „kradnie głos”

VALL-E potrzebuje raptem próbki o długości trzech sekund, by móc zacząć posługiwać się twoim własnym głosem. Wycinek ma składać się z krótkiej wypowiedzi lub rozmowy, a oprogramowanie natychmiast uczy się naśladowania głosu autora.

Co więcej, aby zwiększyć wiarygodność symulowanej wypowiedzi, sztuczna inteligencja bierze pod uwagę także intonację i emocje.

Sztuczna inteligencja może osiągać niewiarygodne wyniki. Microsoft zaprezentował oprogramowanie VALL-E, które potrzebuje tylko trzech sekund, aby móc posługiwać się twoim głosem. To niebywałe, ale też niebezpieczne.

Sprawdź jak działa VALL-E

Kto skorzysta z VALL-E?

Surprised there isn't more chatter around VALL-E

This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯

Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023

Wykorzystanie tego typu oprogramowania otwiera wiele możliwości, chociażby dla filmów wymagających lektora, gier z podkładaniem głosu, a nawet zapowiedzi na lotnisku, czy dworcu. Wszyscy twórcy kreatywni z wielką chęcią korzystaliby z VALL-E. Szczęśliwi byliby też twórcy modów do gier, którzy byliby w stanie tworzyć niezależne dodatki, nie tracąc głosów głównych bohaterów gier.

Niestety, nie brakowałoby też oszustów. Powstałoby bardzo dużo deepfake-ów z wykorzystaniem głosu, bardzo dużo próbek rozmów telefonicznych (sztuczna inteligencja potrafi symulować głos też przez telefon), które prowadziłyby do skrajnych sytuacji, typu oszustwo „na wnuczka”, albo innych praktyk.

Poza oszustami skorzystają też firmy używające botów do rozmów telefonicznych (robocalls). W Polsce szczególnie sprawdziło się to oprogramowanie we wszystkich telefonach proponujących instalacje fotowoltaiczne. Dotychczas nagrywano wcześniej kilka kwestii odpowiadających na głos rozmówcy, brzmiały dość naturalnie, ale dało się uchwycić fałsz. Wykorzystanie Vall-E mogłoby nieco obrócić sytuację, ze względu na uchwycenie emocji i akcentowania wypowiedzi. Oczywiście, wprawny rozmówca na pewno by wychwycił, że ma do czynienia z botem, ale byłoby to widocznie trudniejsze. Dobrze zaprogramowany głos dodałby wiarygodności drugiej stronie.

Korzystajmy, ale uważajmy

sztuczna inteligencja a błędy programistów

Sztuczna inteligencja rozwija się w błyskawicznym tempie. To doskonałe oprogramowanie, które pomoże wielu twórcom i firmom w swoich projektach. Nie zawsze jednak będzie wykorzystywana w „słusznych celach”, a wykrywanie fake-news-ów i prawdy w internecie będzie coraz trudniejsze, wraz z jej rozwojem. Korzystajcie, bawcie się dostępnymi programami, ale też uważajcie na „drugą stronę monitora”.

fot. Depositphotos/bestforbest