Telefon komórkowy z wyświetlonym napisem "Sora" na pierwszym planie i rozmytym obrazem kobiety w ciemnych okularach i skórzanej kurtce na tle miejskiego pejzażu.

Sora od Open AI jest niesamowita. Generuje realistyczne wideo na podstawie tekstu

5 minut czytania
Komentarze

Jeśli do tej pory nie wierzyliście, że AI zmieni świat, to za sprawą Sora, nowego modelu przekształcającego tekst w wideo, zmienicie zdanie. Najświeższe narzędzie od firmy Open AI po wpisaniu promptu generuje materiał wideo. Nie tak dawno śmialiśmy się jeszcze, że AI nie umie dobrze wygenerować dłoni na grafikach — a parę miesięcy później potrafi tworzyć realistyczne i pomysłowe sceny na podstawie instrukcji tekstowych.

logo Open AI z napisem "OpenAI" umieszczone na szklanej ścianie w której odbijają się chmury
Fot. Skorzewiak / Depositphotos

Wideo z promptu od OpenAI

ChatGPT spopularyzował AI w społeczeństwie, DALL-E pokazał, jak sztuczna inteligencja potrafi generować grafiki, teraz przyszła pora na generowanie klipów wideo. Poznajcie nowy model AI o nazwie Sora, zmieniający tekst w wideo. Jak opisuje to post w serwisie X, nowość może tworzyć filmy trwające do 60 sekund, zawierające bardzo szczegółowe sceny, złożone ruchy kamery i wiele postaci wywołujących żywe emocje.

Sora jest w stanie generować złożone sceny z wieloma postaciami, określonymi rodzajami ruchu i dokładnymi szczegółami obiektu i tła. Model rozumie i uwzględni to, o co użytkownik prosił w podpowiedzi, ale także odzwierciedli, jak prezentowane postaci i obiekty są osadzone w fizycznym świecie. Umie interpretować podpowiedzi i tworzyć postacie pełne emocji.

Model ten opiera się na wcześniejszych badaniach nad modelami DALL-E i GPT. Wykorzystuje technikę recaptioningu z DALL-E 3, która polega na generowaniu bardzo rozbudowanych i szczegółowych podpisów dla wizualnych danych treningowych. Dzięki temu model może wierniej podążać za instrukcjami tekstowymi użytkownika zawartymi w wygenerowanym filmie.

Poniższy tweet prezentuje jeden z klipów, który wygenerowana Sora — realistyczny, z pomysłowymi scenami, które powstały na podstawie instrukcji tekstowych.

Oprócz możliwości wygenerowania wideo wyłącznie na podstawie instrukcji tekstowych, model może też pobrać istniejący nieruchomy obraz i wygenerować z niego wideo, animując zawartość obrazu z dbałością o najmniejsze szczegóły. Sora może także modyfikować istniejący film — rozbudować go lub uzupełnić brakujące klatki. Więcej szczegółów na temat technicznych aspektów generowania wideo można przeczytać na stronie Open AI.

Sora wciąż wymaga pracy

Strona Open AI udostępnia wiele nagrań wykonanych za pomocą opisywanej funkcji AI, ale wskazuje też, że nie jest to model pozbawiony wad. Mianowicie może mieć trudności z dokładnym symulowaniem fizyki złożonej sceny, a także może nie mieć koncepcji przyczyny i skutku. Na przykład osoba może ugryźć ciasteczko, ale potem nie będzie ono miało śladu ugryzienia.

Zobaczcie więcej przykładów w poniższym tweecie — wszystkie wygenerowała Sora od OpenAI.

Model może także mylić szczegóły przestrzenne podpowiedzi, np. pomieszanie lewej i prawej strony, a także może mieć trudności z precyzyjnym opisem zdarzeń zachodzących w czasie, np. podążaniem określoną trajektorią kamery.

Kwestia bezpieczeństwa

Na razie Sora jest w fazie testów, OpenAI musi bowiem przed jej udostępnieniem zadbać o kwestie związane z bezpieczeństwem. Chodzi o to, aby produkt nie był wykorzystywany do propagowania dezinformacji czy treści szerzących nienawiść i uprzedzenia.

Klasyfikator tekstu ma sprawdzać i odrzucać monity o wprowadzenie tekstu, który dotyczy skrajnej przemocy, treści o charakterze seksualnym czy podobizny znanych osób. Choć oczywiście nie da się przewidzieć wszystkich sposobów, jak użytkownicy mogą nadużywać nowej technologii.

Tłumaczenie prompta: Wyścig rowerowy po oceanie z różnymi zwierzętami jako sportowcami, jeżdżącymi na rowerach, widok z kamery drona

Co więcej, pliki wideo stworzone przez Sora mają mieć odpowiedni klasyfikator, który pozwoli rozpoznać wygenerowane przez AI wideo. Chodzi tu o metadane C2PA (Coalition for Content Provenance and Authenticity). To organizacja, której celem jest walka z dezinformacją i treściami deepfake poprzez opracowanie standardów identyfikowania pochodzenia treści cyfrowych, zwłaszcza obrazów i wideo. Metadane te są osadzane w plikach multimedialnych i pozwalają odbiorcom weryfikować pochodzenie i historię danej treści, co ułatwia odróżnienie oryginalnych plików od deepfake lub nielegalnie rozpowszechnianych zdjęć.

Rewolucja w branży

Dzięki Sora do zrobienia filmu nie będziecie potrzebować kamery, aktorów, rekwizytów, odpowiedniego oświetlenia, sprzętu — istotna będzie tylko wasza wyobraźnia i dobrze sformułowany prompt. Za jakiś czas nagrania od AI będą nie do odróżnienia od tych prawdziwych.

Tłumaczenie prompta: Instruktażowa sesja gotowania domowych gnocchi, prowadzona przez babcię-influencerkę, odbywająca się w wiejskiej kuchni w stylu toskańskim, kinowe oświetlenie

Na razie Sora może generować filmy trwające do minuty, zachowując jakość wizualną i dopasowując się do podpowiedzi użytkownika. Ale w przyszłości mogą to być dłuższe materiały, np. teledyski czy filmy. Ciekawe, w jaki sposób zareaguje na to rynek związany z reklamą czy szeroko pojęta rozrywką, gdy praktycznie każdy z dostępem do internetu będzie w stanie — zerowym kosztem, z kreatywnym promptem i chwilą pracy AI — wygenerować oryginalny materiał.

Źródło: OpenAI. Zdjęcie otwierające: Jolanta Szczepaniak / Android.com.pl

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.

Motyw