Midjourney wprowadza funkcję /describe. Sprawdziłem, jak działa – efekty przerosły moje najśmielsze oczekiwania

7 kwietnia 2023 5 minut czytania

W ostatnich tygodniach kilkukrotnie publikowaliśmy na serwisie materiały, w których wykorzystywaliśmy grafiki wygenerowane z pomocą Midjourney we wciąż udoskonalanej wersji v5. Ta, względem v4 poczyniła gigantyczne wręcz postępy, ale twórcy narzędzia rozwijają je nie tylko w zakresie kreowania obrazów. Od niedawna na liście dostępnych komend znajdziemy także nowość w postaci /describe, które jak nietrudno się domyślić – służy do opisywania obrazów. Jakich i w jaki sposób? I do czego tak naprawdę może się to przydać?

Midjourney i korzystanie z /describe – spis treści

Z pewnością nie raz i nie dwa, widzieliście już absolutnie obłędne i przypominające prawdziwe zdjęcia grafiki z Midjourney. Aby osiągnąć poziom detali, jak na zdjęciu poniżej…

Still can’t grasp the output quality of Midjourney V5

Reflection in puddle is 🤯

💬Full prompt in alt pic.twitter.com/bqKORjyBSO
— Linus ●ᴗ● Ekenstam (@LinusEkenstam) April 1, 2023

…trzeba posiadać oczywiście odpowiednią wiedzę z zakresu tworzenia promptów. Są trzy metody podejścia do tego tematu. Po pierwsze – możemy eksperymentować we własnym zakresie i ucząc się na własnych błędach, w końcu wypracować „perfekcyjny” komendy. Sposób drugi, to po prostu skorzystanie z gotowej już wiedzy, zbieranej na kanale Midjourney na Discordzie. W zakładce prompt-faqs znajdziemy szereg tutoriali oraz poradników dotyczących parametryzowania promptów i „naginania” algorytmów do naszej wizji.

Funkcja Midjourney /describe w praktyce

Od niedawna dostępna jest także i trzecia metoda… być może najlepsza i najprostsza ze wszystkich. Otóż Midjourney wprowadziło całkowicie nową komendę /describe, która pozwala nam na coś, co równie dobrze zrównać można z inżynierią odwrotną. Po wpisaniu odpowiednich słów w okienku, uzyskujemy możliwość wgrania obrazu, który zrobił na nas wrażenie… i po chwili otrzymamy bardzo szczegółowy opis tego, z jakich promptów należy korzystać, aby osiągnąć zbliżony efekt.

Today we're releasing a /describe command that lets you transform images-into-words. Give it a shot! We think this tool will transform your liguistic-visual process both in terms of creative power and discovery.
— Midjourney (@midjourney) April 4, 2023

Jak to działa w praktyce? W formie testów postanowiłem podać Midjourney jedną z grafik przedstawiających Terminatora. To obraz zaciągnięty bezpośrednio z filmu, pokazujący z dużą szczegółowością i na przybliżeniu facjatę modelu bodajże T-800 (zagorzali fani serii – jeśli się mylę, poprawcie mnie w komentarzach). Co z nim dalej zrobiłem?

fot. materiały prasowe/Paramount Pictures

Zacząłem oczywiście od wpisania /describe w MidJourney…

Następnie załadowałem właściwą grafikę…

Już w zaledwie kilka sekund później (opłacam abonament Midjourney – nie wiem czy ma to w przypadku tej funkcji wpływ na szybkość procesowania zadań) otrzymałem bardzo szczegółowe prompty opisujące zdjęcie. Wyglądały one następująco:

Co rzuca się w oczy? Oczywiście oprócz standardowego opisu i wskazań co do jakości, warto zwrócić uwagę na wykorzystanie nazwisk twórców, które wskazują sztucznej inteligencji style, w jakich utrzymać ma generowaną grafikę. Parametr –ar 4:3, pozwala z kolei na ustawienie aspect ratio (format obrazu).

Test wygenerowanych promptów w praktyce

Wykorzystanie poszczególnych promptów daje z kolei następujące efekty. Oczywiście rezultat nie jest kropka w kropkę obrazem wyjściowym, ale daje nam bardzo solidną bazę do dalszych modyfikacji… i na koniec materiału zobaczycie, co udało mi się na ich bazie osiągnąć w zaledwie kilka minut.

Prompt 1

a metallic robot with red lights in their eyes, in the style of realistic and hyper-detailed renderings, 8k resolution, david nordahl, cross-processing/processed, todd mcfarlane, epic portraiture, alexandr averin --ar 4:3

Prompt 2

a silver robot dressed in clothing with his eyes glowing red, in the style of 8k resolution, mort künstler, dynamic and exaggerated facial expressions, skeletal, realist: lifelike accuracy, dark navy and yellow, focus stacking --ar 4:3

Prompt 3

terminator is the main character of terminator, in the style of focus stacking, 8k 3d, shiny eyes, human anatomy, nikon d850, vanitas, low resolution --ar 4:3

Prompt 4

the terminator movie released, in the style of canon ts-e 17mm f/4l tilt-shift, vivid portraiture, human anatomy, 8k, dark silver and gold, robotic expressionism, cross-processing/processed --ar 4:3e style of canon ts-e 17mm f/4l tilt-shift, vivid portraiture, human anatomy, 8k, dark silver and gold, robotic expressionism, cross-processing/processed --ar 4:3

Całkiem ciekawie, prawda? Jako bazę do dalszych działań wybrałem wersję 1 i to na podstawie generacji powstałych na jej bazie, próbowałem zbliżyć się do odpowiedniego rezultatu. Dodatkowo zastosowałem w prompcie parametr –v 5, który wymusza na algorytmach pracę na podstawie najnowszej iteracji. Wersja v5 ma to do siebie, że radzi sobie nieco lepiej z generowaniem realistycznych obrazów, podczas gdy v4 ma nieco bardziej… artystyczne zacięcie.

Zastosowany prompt brzmiał więc:

a metallic robot with red lights in their eyes, in the style of realistic and hyper-detailed renderings, 8k resolution, david nordahl, cross-processing/processed, todd mcfarlane, epic portraiture, alexandr averin --ar 4:3 --v 5

Następnie, bazując już jedynie na proszeniu o kolejne warianty, otrzymałem najpierw to…

Później to…

Po zawężeniu wariantów z kolei to…

Efekt końcowy i zestawienie z oryginalną grafiką

Efekt końcowy prac prezentował się następująco:

Gdy zestawimy obok siebie obraz oryginalny oraz ten wygenerowany finalnie przed Midjourney, nietrudno spostrzec, jak blisko są względem siebie obie grafiki.

A gdybym poświęcił na to jeszcze trochę więcej czasu, skupił się w promptach nieco bardziej na kolorystyce, odpowiednim naświetleniu i poprawie perspektywy, prędzej czy później z pewnością otrzymalibyśmy niemalże lustrzane odbicie.

Funkcja /describe, póki co w mediach nie zyskała zbyt wielkiego rozgłosu, ba nawet w obrębie samej społeczności skupionej wokół Midjourney nie wszyscy zdają sobie jeszcze sprawę z jej istnienia, ale gdy tylko się to upowszechni – można spokojnie założyć, że wejdziemy w kolejną erę generowania hiperrealistycznych obrazów. To, co do tej pory było zarezerwowane jedynie dla najwytrwalszych i utalentowanych, teraz stanie się dostępne praktycznie dla każdego.

Idą z tym oczywiście pewne BARDZO poważne zagrożenia (i to w związku z nimi Midjourney niedawno ogłosiło koniec darmowego okresu próbnego w dotychczasowej formie), ale to temat już na całkowicie inny materiał…

fot. otwierające: screenshot/Midjourney.com