Mark Zuckerberg przemówił po polsku. To zasługa nowego narzędzia Meta – Voicebox

16 czerwca 2023 2 minuty czytania

Meta, czyli korporacja Marka Zuckerberga już od lutego 2023 r. informowała o planach opracowania produktu na bazie sztucznej inteligencji, lecz nikt nie spodziewał się, że efekty tych prac zobaczymy tak szybko. Oto Voicebox, czyli narzędzie wykorzystujące AI oraz przetwarzanie tekstu na mowę.

Czym właściwie jest Voicebox?

Voicebox to pierwszy generator mowy oparty o sztuczną inteligencję i model językowy LLaMA, ogłoszony przez korporację Meta jeszcze w lutym 2023 r. Zuckerberg nie pokazał na razie zbyt wiele — Voicebox to dalej projekt we wczesnym stadium rozwoju. Ale hej, lepszy rydz, niż nic.

Na początek, taki generator mowy możemy nakarmić tekstem. Wtedy przeczyta on nam tekst w kilku różnych wariantach głosowych. Że tak powiem, nic, czego nie potrafiła Ivona te 15 lat temu. Możemy jednak nakarmić model własnym głosem, a potem napisać tekst i wygenerować go tak, jakbyśmy sami go mówili, z odpowiednią intonacją. Jeszcze trochę, i nie będę w ogóle musiał nagrywać dźwięku do filmów.

Co jednak jest znacznie ciekawsze, Voicebox potrafi również usuwać zaburzenia z nagrań. Możemy aplikacji polecić, aby usunęła zbędne tło, np. szumy lub — jak to zostało poniżej zaprezentowane przez Zuckerberga — szczekanie psa.

https://www.facebook.com/zuck/posts/pfbid02hnYs7mSkxwLq1UT1HMJQnS2Bjs7QsQRmDRhYnJgZMoBSpVF3pNJrHh6UyVJXay1kl

Voicebox był trenowany na 50 tys. godzinach dźwięku

Meta wytrenowała swój model na publicznie dostępnych audiobookach, napisanych w językach: angielskim, francuskim, hiszpańskim, niemieckim, portugalskim oraz — niespodzianka — polskim! Nic też dziwnego, że Mark Zuckerberg pod koniec powyższego klipu przemawia w naszym języku mówiąc „wkrótce więcej”. Może niezbyt płynnie, ale cóż – przynajmniej da się go zrozumieć.

Program może też z łatwością przeczytać jedną wypowiedź w różnych językach, co przyda się w szybkim tłumaczeniu. Co więcej, badania korporacji Meta wskazują, że systemy rozpoznawania mowy działają z nagraniami „wypluwanymi” przez Voicebox prawie tak samo dobrze, jak w przypadku naturalnych głosów. Margines błędu wynosił zaledwie 1% więcej.

To jest z pewnością ekscytująca wizja, zwłaszcza, iż istnieją już modele generujące dźwięk z AI, oparte o próbki głosu celebrytów i influencerów. Czy takie narzędzie zostanie jednak udostępnione w najbliższej przyszłości zwykłym śmiertelnikom? Ile ono będzie kosztować? Na te pytania odpowiedzi zna raczej tylko Mark Zuckerberg.