logo Open AI z napisem "OpenAI" umieszczone na szklanej ścianie w której odbijają się chmury

Open AI ukończyło własny generator dźwięku, ale nie chce się nim dzielić. Jest ku temu powód

3 minuty czytania
Komentarze

Open AI ma już gotowy własny generator dźwięku, ale nie to jest zaskoczeniem. Najbardziej dziwi fakt, że choć aplikacja jest gotowa od końcówki 2022 roku, to przedsiębiorstwo dalej powstrzymuje się przed udostępnieniem narzędzia szerszej publice. Dzieje się tak, gdyż postęp technologiczny to jedno, a dobry marketing to drugie.

Open AI chowa generator dźwięku od 2022 roku

Smartfon wyświetlający ekran czatu ChatGPT na stronie chat.openai.com z przykładowymi pytaniami, na zielonym, pionowo prążkowanym tle.
Fot. Mojahid Mottakin / Unsplash

Choć aplikacja nie jest dostępna dla wszystkich użytkowników ChatGPT, to limitowana grupa testerów pracuje z generatorem audio już od 2023 r. Co istotne, licencja korzystania z programu wskazuje, że każde użycie AI do generowania głosu musi być dobitnie zaznaczone w publicznych postach na mediach społecznościowych.

Jak więc działa narzędzie? Średnio i nie bez zastrzeżeń. Jeden z użytkowników X (dawnego Twittera) dostarczył testowe nagranie, na którym 15-sekundowa próbka głosu została wykorzystana do stworzenia mówiącego awatara AI. Klikając na poniższe nagranie możecie sprawdzić jego działanie (najpierw odtwarzana jest nagrana próbka, potem dźwięk wygenerowany przez sztuczną inteligencję).

Dlaczego generator dźwięku od firmy Sama Altmana działa tak średnio?

Choć autor posta jest zachwycony jakością wygenerowanego dźwięku, muszę nieco ostudzić jego technologiczny entuzjazm.

Dwie sprawy. Po pierwsze, autor nie czyta przygotowanego tekstu naturalnie. Wypowiedź brzmi prędzej jak nagranie lektora z płyt dołączanych do podręczników szkolnych niż typowa swobodna wypowiedź. Po drugie, AI nie może się wyzbyć charakterystycznego, robotyczno-syntetycznego wykończenia głosu, przez co zestawiając ze sobą dwa nagrania, jesteśmy w stanie od razu rozpoznać komputerowego „przebierańca”.

OpenAI uważa jednak, że to nie jakość nagrań jest powodem, dla którego generator dźwięku nie został jeszcze upubliczniony.

Rozumiemy, że generowanie nagrań przypominających głosy znanych postaci niesie za sobą poważne ryzyko, szczególnie w roku wyborczym.

Open AI, wypowiedź z postu „Navigating the Challenges and Opportunities of Synthetic Voices” na blogu firmy

PR kroczy przed postępem

Sam Altman
Sam Altman, jeden z naczelnych włodarzy Open AI. Fot. YouTube / IDEAS NCBR

Także postęp technologiczny swoje, a robienie dobrej miny do złej gry swoje. Sam Altman jest specjalistą w tej dziedzinie, bo i w ostatnich dniach odwiedzał korporacje filmowe (Paramount, Universal, Warner Bros. Discovery).

Cel był prosty, promowanie Sory, modelu do generowania wideo. Choć niektóre z firm wykazały zainteresowanie narzędziem, to żadne umowy nie zostały jeszcze podpisane. O to byłoby też trudno, szczególnie kilka miesięcy po strajkach aktorów i scenarzystów. Także z jednej strony Open AI chwali się postępem, ale boi się pójść totalnie na przód, ze względu na strach przed negatywną prasą.

Źródło: ZDNET, Zdjęcie otwierające: Skorzewiak / Depositphotos

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.

Motyw