Microsoft pokazał VASA-1. To prawdopodobnie najbardziej przerażający model AI, jaki zobaczycie

19 kwietnia 2024 4 minuty czytania

Microsoft zaprezentował nowy model sztucznej inteligencji (AI) o nazwie VASA-1, który potrafi generować hiperrealistyczne filmy przedstawiające mówiących ludzi. Wykorzystując tylko zdjęcie i plik audio z nagraniem mowy, model ten może stworzyć film, w którym usta osoby na ekranie poruszają się w synchronizacji z dźwiękiem, a wyrazy twarzy i ruchy głowy sprawiają, że całość wygląda naturalnie. Należy jednak zaznaczyć, że gigant technologiczny nie zamierza udostępniać modelu VASA-1 w postaci produktu ani API, a jego zastosowanie ma się skupiać na tworzeniu realistycznych wirtualnych postaci.

Spis treści

Ilustracja przedstawiająca koncepcję animacji twarzy z pojedynczego zdjęcia przy użyciu dźwięku i sygnałów kontrolnych, demonstrująca różnorodne wyraziste emocje i ruchy ust na przykładach kilkunastu osób. — Fot. Microsoft / materiały prasowe

Co potrafi VASA-1?

To model sztucznej inteligencji, który ma możliwość generowania filmów trwających do minuty (według pokazów demonstracyjnych) z wykorzystaniem tylko jednego zdjęcia i pliku audio. Potrafi dostosować ruch ust i wyraz twarzy do dźwięku tak, by całość wyglądała naturalnie. Udostępnione przykładowe pliki pokazują, że potrafi to zrobić imponująco skutecznie, zwłaszcza w kwestii synchronizacji dźwięki i obrazu oraz adekwatności emocji wyrażanych przez prezentowane postaci. Badacze Microsoftu określili to jako „duże spektrum emocji i wyrazistych niuansów twarzy oraz naturalnych ruchów głowy”.

Na swojej stronie Microsoft szczegółowo opisał działanie rozwijanego modelu i podkreślił jego możliwości. Firma twierdzi, że VASA-1 może generować filmy o rozdzielczości 512 x 512 pikseli z prędkością do 40 klatek na sekundę, z minimalnym opóźnieniem początkowym. Oto działanie modelu AI w praktyce:

Demo działania modelu VASA–1. Źródło: Microsoft

Ponadto oferuje szczegółową kontrolę nad różnymi aspektami filmu, takimi jak kierunek, w którym zwrócone są oczy, odległość głowy, emocje i in. Dzięki temu użytkownicy mogą dostosowywać wirtualne postacie do specyficznych potrzeb, np. szkoleniowych, terapeutycznych czy profesjonalnych.

Nagrania wygenerowane z uwzględnieniem kierunku patrzenia. Źródło: Microsoft

Nagrania wygenerowane z uwzględnieniem wielkości głowy. Źródło: Microsoft

Nagrania wygenerowane z uwzględnieniem emocji. Źródło: Microsoft

Model AI był w stanie generować filmy również z wykorzystaniem artystycznych zdjęć (np. rapująca Mona Lisa), nagrań ze śpiewem czy mową w języku innym niż angielski. Badacze Microsoftu podkreślają, że zdolność do tych funkcji nie była obecna w ich danych, co sugeruje zdolność do samodzielnego uczenia się.

Potencjał AI czy pole do nadużyć?

Hiperrealistyczne generowanie filmów przedstawiających prawdziwe osoby z dowolnym dźwiękiem jest imponujące (zwłaszcza w kwestii tego, jak poprawnie są one w stanie wyrażać emocje), ale budzi również szereg obaw o nieetyczne zastosowania, szczególnie w kontekście tworzenia deepfake’ów. Przynajmniej nikt nie uwierzy w rapującą Mona Lisę:

Źródło: Microsoft

Dlatego Microsoft podkreśliła, że nie zamierza udostępniać modelu AI publicznie, a chce go wykorzystać do tworzenia wirtualnych interaktywnych postaci: awatarów do zastosowań korporacyjnych, ankieterów AI czy „pracowników” odpowiadających za wstępną selekcję kandydatów, co ma odciążyć personel HR.

Jednak niewątpliwie wykorzystanie AI do ataków będzie przybierać na sile. Zresztą ma to już miejsce i dotyczy m.in. firm technologicznych (klon głosu CEO LastPass, który miał zmanipulować jednego z pracowników firmy).

Sam aktywnie wykorzystuję LLM-y w testach penetracyjnych i stress testach. Ich jakość jest coraz lepsza. W przypadku osób o wysokich umiejętnościach technicznych narzędzia tego typu mogą znacznie skrócić czas podczas tworzenia łańcucha ataku.
Mateusz Kopacz, ekspert ds. cyberbezpieczeństwa dla Android.com.pl

Na pytanie o to, czy da się przed czymś takim zabezpieczyć, nasz ekspert odpowiedział:

Tak. Są już dostępne rozszerzenia do przeglądarek, narzędzia do monitorowania ruchu sieciowego lub algorytmy, które sprawdzają, czy komunikacja to człowiek – człowiek, człowiek – maszyna czy maszyna maszyna. Co więcej, każdy udany atak działa na wyobraźnię, więc nagłaśnianie nowych wektorów ma jak najbardziej walor edukacyjny.
Mateusz Kopacz, ekspert ds. cyberbezpieczeństwa dla Android.com.pl

Granica między rzeczywistością i wirtualnym światem

Rozwój AI, także w aspekcie generowania realistycznych obrazów i nagrań, jest nieunikniony. W Chinach i Indiach stosowani są wygenerowani przez AI prezenterzy wiadomości, nie wspominając o influencerach i modelach AI, którzy przyciągają tysiące obserwujących na platformach społecznościowych.

Dodajmy, że w 2023 r. Meta zaprezentowała generatywny model mowy oparty na sztucznej inteligencji, Voicebox, który może pobrać próbkę dźwięku trwającą zaledwie dwie sekundy i wygenerować autentycznie brzmiący głos. Meta zdecydowała się nie publikować modelu ani kodu, dopóki nie będzie można łatwiej wykryć mowy syntetycznej.

Źródło: Microsoft, TheStack. Zdjęcie otwierające: Microsoft / zrzut ekranu

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.