Jeśli do tej pory nie wierzyliście, że AI zmieni świat, to za sprawą Sora, nowego modelu przekształcającego tekst w wideo, zmienicie zdanie. Najświeższe narzędzie od firmy Open AI po wpisaniu promptu generuje materiał wideo. Nie tak dawno śmialiśmy się jeszcze, że AI nie umie dobrze wygenerować dłoni na grafikach — a parę miesięcy później potrafi tworzyć realistyczne i pomysłowe sceny na podstawie instrukcji tekstowych.
Spis treści
Wideo z promptu od OpenAI
ChatGPT spopularyzował AI w społeczeństwie, DALL-E pokazał, jak sztuczna inteligencja potrafi generować grafiki, teraz przyszła pora na generowanie klipów wideo. Poznajcie nowy model AI o nazwie Sora, zmieniający tekst w wideo. Jak opisuje to post w serwisie X, nowość może tworzyć filmy trwające do 60 sekund, zawierające bardzo szczegółowe sceny, złożone ruchy kamery i wiele postaci wywołujących żywe emocje.
Sora jest w stanie generować złożone sceny z wieloma postaciami, określonymi rodzajami ruchu i dokładnymi szczegółami obiektu i tła. Model rozumie i uwzględni to, o co użytkownik prosił w podpowiedzi, ale także odzwierciedli, jak prezentowane postaci i obiekty są osadzone w fizycznym świecie. Umie interpretować podpowiedzi i tworzyć postacie pełne emocji.
Model ten opiera się na wcześniejszych badaniach nad modelami DALL-E i GPT. Wykorzystuje technikę recaptioningu z DALL-E 3, która polega na generowaniu bardzo rozbudowanych i szczegółowych podpisów dla wizualnych danych treningowych. Dzięki temu model może wierniej podążać za instrukcjami tekstowymi użytkownika zawartymi w wygenerowanym filmie.
Poniższy tweet prezentuje jeden z klipów, który wygenerowana Sora — realistyczny, z pomysłowymi scenami, które powstały na podstawie instrukcji tekstowych.
Oprócz możliwości wygenerowania wideo wyłącznie na podstawie instrukcji tekstowych, model może też pobrać istniejący nieruchomy obraz i wygenerować z niego wideo, animując zawartość obrazu z dbałością o najmniejsze szczegóły. Sora może także modyfikować istniejący film — rozbudować go lub uzupełnić brakujące klatki. Więcej szczegółów na temat technicznych aspektów generowania wideo można przeczytać na stronie Open AI.
Sora wciąż wymaga pracy
Strona Open AI udostępnia wiele nagrań wykonanych za pomocą opisywanej funkcji AI, ale wskazuje też, że nie jest to model pozbawiony wad. Mianowicie może mieć trudności z dokładnym symulowaniem fizyki złożonej sceny, a także może nie mieć koncepcji przyczyny i skutku. Na przykład osoba może ugryźć ciasteczko, ale potem nie będzie ono miało śladu ugryzienia.
Zobaczcie więcej przykładów w poniższym tweecie — wszystkie wygenerowała Sora od OpenAI.
Model może także mylić szczegóły przestrzenne podpowiedzi, np. pomieszanie lewej i prawej strony, a także może mieć trudności z precyzyjnym opisem zdarzeń zachodzących w czasie, np. podążaniem określoną trajektorią kamery.
Kwestia bezpieczeństwa
Na razie Sora jest w fazie testów, OpenAI musi bowiem przed jej udostępnieniem zadbać o kwestie związane z bezpieczeństwem. Chodzi o to, aby produkt nie był wykorzystywany do propagowania dezinformacji czy treści szerzących nienawiść i uprzedzenia.
Klasyfikator tekstu ma sprawdzać i odrzucać monity o wprowadzenie tekstu, który dotyczy skrajnej przemocy, treści o charakterze seksualnym czy podobizny znanych osób. Choć oczywiście nie da się przewidzieć wszystkich sposobów, jak użytkownicy mogą nadużywać nowej technologii.
Co więcej, pliki wideo stworzone przez Sora mają mieć odpowiedni klasyfikator, który pozwoli rozpoznać wygenerowane przez AI wideo. Chodzi tu o metadane C2PA (Coalition for Content Provenance and Authenticity). To organizacja, której celem jest walka z dezinformacją i treściami deepfake poprzez opracowanie standardów identyfikowania pochodzenia treści cyfrowych, zwłaszcza obrazów i wideo. Metadane te są osadzane w plikach multimedialnych i pozwalają odbiorcom weryfikować pochodzenie i historię danej treści, co ułatwia odróżnienie oryginalnych plików od deepfake lub nielegalnie rozpowszechnianych zdjęć.
Rewolucja w branży
Dzięki Sora do zrobienia filmu nie będziecie potrzebować kamery, aktorów, rekwizytów, odpowiedniego oświetlenia, sprzętu — istotna będzie tylko wasza wyobraźnia i dobrze sformułowany prompt. Za jakiś czas nagrania od AI będą nie do odróżnienia od tych prawdziwych.
Na razie Sora może generować filmy trwające do minuty, zachowując jakość wizualną i dopasowując się do podpowiedzi użytkownika. Ale w przyszłości mogą to być dłuższe materiały, np. teledyski czy filmy. Ciekawe, w jaki sposób zareaguje na to rynek związany z reklamą czy szeroko pojęta rozrywką, gdy praktycznie każdy z dostępem do internetu będzie w stanie — zerowym kosztem, z kreatywnym promptem i chwilą pracy AI — wygenerować oryginalny materiał.
Źródło: OpenAI. Zdjęcie otwierające: Jolanta Szczepaniak / Android.com.pl
Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.