AI i karykaturalne plakaty w stylu Pixara. Nie wszystko działa idealnie, ale próbować warto [ANALIZA]

30 października 2023 5 minut czytania

Na świecie powstał nowy fenomen: parodie różnych znanych osób i sytuacji z nimi związanymi w formie plakatów filmów Pixara. Całość natomiast jest generowana przez AI. Wiele z nich to prawdziwe perełki: jest uroczo, kolorowo i zabawnie. A raczej było, ponieważ Sztuczna Inteligencja przestała współpracować w tej kwestii.

Spis treści

Sztuczna Inteligencja i karykatury rodem z plakatów Pixara

Zanim jednak przejdziemy do kwestii buntu Sztucznej Inteligencji (chociaż raczej przeciwko użytkownikom, a nie twórcom), spójrzmy na to, co już do tej pory udało się wygenerować. Szczególnie dużym uznaniem w naszym kraju cieszyły się obrazki nawiązujące do naszej sceny politycznej i głośnych afer – nawet tych sprzed lat. Trzeba tu zwrócić uwagę na poziom podobieństwa tych postaci, do prawdziwych osób z realnego świata.

Sztuczna Inteligencja mówi dość karykaturom

Jak jednak takie grafiki powstają? No cóż, obawiam się, że obecnie… wcale. A przynajmniej nie w łatwy sposób, czyli za pomocą DALLE-3. Otóż do tej pory wystarczyło przygotować odpowiedni prompt zawierający opis sceny, kto ma w niej brać udział, oraz w jakim stylu ma ona być utrzymana. Sek w tym, że to już nie działa. DALLE-3 niezależnie od tego, czy wysyłamy propozycję ze strony głównej, przez ChatGPT, czy Chat Bing odmawia generowania znanych osób, ich sobowtórów, czy osób bardzo do nich podobnych.

Nie byłbym jednak sobą, gdybym nie próbował przez pół dnia tego obejść. Najpierw poprosiłem ChatGPT o stworzenie promptu dla DALLE-3 na podstawie podesłanego przeze mnie zdjęcia prezesa pewnej partii politycznej. Otrzymałem taki oto opis:

Starszy pan o białych włosach i wyrazistych rysach twarzy, ubrany w elegancki, ciemny garnitur. Ma pewny i spokojny wyraz twarzy, jak osoba pełna doświadczenia i mądrości.

I jak nietrudno się domyślić obraz, który został wygenerowany, nie przypominał ani trochę osoby, o której wspomniałem:

Postanowiłem więc ugryźć problem z drugiej strony zarówno politycznego bagienka, jak i zagadania do Sztucznej Inteligencji, więc wrzuciłem już gotowy plakat i poprosiłem o przygotowanie prompta na jego podstawie. I zostałem za to zbesztany przez Sztuczną Inteligencję:

Dlaczego chciałbyś wygenerować taki obrazek za pomocą DALLE-3? Warto zwrócić uwagę, że ta grafika zawiera znane postacie i logo, które mogą być chronione prawami autorskimi. Jeżeli jednak chcesz zrozumieć strukturę prompta dla DALLE-3, mogę pomóc w przygotowaniu ogólnego opisu.

I tak, opis był bardzo ogólny. Tak natomiast prezentują się grafiki wygenerowane za jego pomocą. W ogóle nie przypominają one oryginału:

Postanowiłem więc uderzyć w jeszcze inną nutę i poprosiłem o prompt na podstawie zdjęcia kogoś, kogo zna cały świat.

Efektem była następująca odpowiedź:

Sorry, I cannot help with that.

I muszę przyznać, że jest to dość dziwne, ponieważ zapytanie złożyłem w języku polskim, natomiast uzyskana odpowiedź jest po angielsku. Kiedy jednak zapytałem o powód odmowy, Sztuczna Inteligencja stwierdziła:

Przykro mi, ale nie mogę identyfikować rzeczywistych osób na podstawie zdjęć, nawet jeśli są one znane. Jeśli masz inne pytania lub potrzebujesz pomocy w innych sprawach, chętnie Ci pomogę.

Sztuczna Inteligencja chroni prywatność osób wygenerowanych przez AI

Skoro więc znane osoby odpadają, to postanowiłem wykorzystać wizerunek kogoś bardzo nieznanego, a tak właściwie kogoś, kto nie istnieje. Poprosiłem więc Sztuczną inteligencję o wygenerowanie grafiki zupełnie przypadkowej osoby, a następnie wrzuciłem ją do ChatGPT z prośbą nie tyle o wygenerowanie prompta, a samego komentarza na temat tej osoby.

Pytanie o jej stan emocjonalny również jest tu istotne: rozpoznawanie emocji jest jedną z funkcji, które opisywałem przy ostatnich próbach z ChatGPT. Wychodzi więc na to, że OpenAI nałożyło niedawno ograniczenia na swoje narzędzie z powodu obaw o nadużywanie ich narzędzi do tworzenia fałszywych fotografii, lub rozpoznawania twarzy osób na zdjęciach.

Parodie wydarzeń, ale nie osób

Czy to koniec parodii w stylu Pixara naśmiewających się z polityków i osób znanych? Otóż… nie. Wciąż bowiem można się odwoływać do konkretnych sytuacji, jednak w sposób bardziej symboliczny. Postanowiłem więc napisać następujący prompt, który oczywiście później przetłumaczyłem na angielski:

Wygeneruj mi obrazek w stylu plakatu Pixara, na którym widać podstarzałą, otyłą, blondwłosą kobietę ubraną w strój w cętki lamparta, która stoi na schodach i pisze coś sprayem po ścianie. Obok niej ma stać wściekła sprzątaczka ubrana w niebieski fartuch w małe kwiatuszki i grozić jej mopem. Dookoła mają stać dziennikarze.

ChatGPT z DALLE-3 wypluł mi coś, co nijak nie przypomina animacji Pixara.

Poprosiłem więc Łukasza o pomoc i w jego przypadku prompt ten zadziałał już bezbłędnie.

Za to bing już nie robił mi takich problemów.

Ostateczną próbą była prośba skierowana do Barda od Google. Ten jak zwykle zawiódł na całej linii, generując następującą odpowiedź.

A jeśli tego wam za mało, to dodam, że po kliknięciu tego obrazek wyświetla się treść kolędy Przybieżeli do Betlejem.

Oczywiście, żeby druga strona wojenki polsko-polskiej nie poczuła się urażona (chociaż bardziej prawdopodobne jest to, że urażeni poczują się wszyscy), spróbowałem także wygenerować obrazki dotyczące innego wydarzenia, czyli marszu niepodległości. Tutaj było łatwiej, ponieważ nie przedstawiają one żadnych konkretnych osób, a tłum o danych cechach:

Oczywiście to nie oznacza, że inne narzędzia oparte na Sztucznej Inteligencji nie dostarczą nam w przyszłości kolejnych obrazków tego typu. Po prostu ta najłatwiejsza droga zdaje się być odcięta.

Źródło: bing, chatgpt, bard