Po palcach ich poznacie. Oto dlaczego AI ma tak duży problem z generowaniem rąk

8 marca 2023 5 minut czytania

Obrazy wygenerowane przez sztuczną inteligencję podbiły serca internautów. Lensa AI zrobiła furorę w mediach społecznościowych, DALL-E 2 potrafi stworzyć obraz z tego, co zaproponuje użytkownik, popularnością cieszy się też Stable Diffusion i Midjourney. I choć z odwzorowaniem twarzy AI nie ma problemu, to po tym, jak oprogramowanie generuje dłonie, można stwierdzić, że nie jest to dzieło ludzkich rąk.

Dlaczego oprogramowanie sztucznej inteligencji potrafi dodawać dodatkowe palce albo w taki sposób przekształcać dłonie, że nie przypominają czegoś, co należałoby do człowieka?

AI a generowanie rąk – spis treści

Impreza wygenerowana przez AI

Programista z San Francisco, Miles Zimmerman, wprowadził do oprogramowania Midjourney szczegółowy tekst tego, jakie zdjecia chciałby uzyskać: A candid photo of some happy 20-something year-olds in 2018 dressed up for a night out, enjoying themselves mid-dance at a house party in some apartment in the city, photographed by Nan Goldin, taken with a Fujifilm Instax Mini 9, flash, candid, natural, spontaneous, youthful, lively, carefree, — ar 3:2.

Trzeba przyznać, że efekty pracy modelu AI są imponujące. Ale diabeł tkwi w szczegółach. W poniższym poście możecie zobaczyć zdjęcia, które w całości zostały wygenerowane przez sztuczną inteligencję. Na pierwszy rzut oka trudno uwierzyć, że żadna z tych kobiet naprawdę nie istnieje.

Midjourney is getting crazy powerful—none of these are real photos, and none of the people in them exist. pic.twitter.com/XXV6RUrrAv
— Miles (@mileszim) January 13, 2023

Ale zdjęcia zdradzają, że ludzka anatomia (nie tylko w przypadku rąk zresztą…) stanowi spory problem dla sztucznej inteligencji. Zobaczcie to w szczegółach:

Rozmazane tatuaże, dziwnie wyglądające zęby, ale przede wszystkim ośmiopalczasta ręka trzymająca aparat wskazuje, że nie jest to realne zdjęcie.

Podobnie wygląda to na następnym zdjęciu. Kobieta trzymająca prawdopodobnie cyfrowy aparat ma zdeformowane palce, które wychodzą z dłoni, która byłaby realna, gdyby były tam dodatkowe stawy.

Sztuczna inteligencja bywa rasistowska — gdy ma wygenerować ludzi, zawsze mają oni biały kolor skóry. Co więcej, przedstawia nierealistyczne standardy urody. Ale wciąż, generując ręce, popełnia błędy. Zobaczcie poniższe zdjęcie, na którym pojawiają się nadprogramowe palce czy ręka unosząca się w powietrzu.

Zrozumienie zbioru danych

Obecnie programy do generowania obrazów są „przeszkolone” w rozpoznawaniu relacji między miliardami obrazów z internetu oraz towarzyszącymi im opisami tekstowymi. Program uczy się przez skojarzenia i zbiory danych — w tym znaczeniu na przykład „rozumie”, że słowo „pies” odnosi się do zdjęcia psa.

W przypadku ludzkiej anatomii wiemy, że AI świetnie potrafi poradzić sobie z twarzami. Co takiego jest więc w dłoniach, że sprawia oprogramowaniu taką trudność. Przedstawiciel firmy Stability AI tłumaczy, że na zdjęciach, którymi „karmiony” jest soft, dłonie zazwyczaj przedstawiane są mniej wyraźnie niż twarze. Co więcej, na obrazach źródłowych są stosunkowo rzadko widoczne w dużej formie.

Problemy z generowaniem rąk – powody

Peter Bentley z University College London twierdzi, że wynika to z ograniczeń samych generatorów obrazów. Karmione zdjęciami mają pojęcie o ogólnej koncepcji ręki. Jest dłoń, palce i paznokcie, ale żaden z mechanizmów AI tak naprawdę nie rozumie, o co chodzi w ich trójwymiarowej geometrii. Głównie z uwagi na to, że nie ma jednego, uniwersalnego wzoru, który pozwala na identyfikację oraz określenie tego, czym jest i jak wygląda/układa się dłoń.

Problem pojawia się podczas generowania modeli 3D z obrazów 2D – jeśli technologia nie ogarnia trójwymiarowej natury generowanego materiału, wtedy będzie miała trudności z odtworzeniem danego elementu i nie umieści go odpowiednio w kontekście.

Nie jest to problem jednego z mechanizmów AI do generowania obrazów — wszystkie mają z tym problem. Inteligencja inteligencją, ale pokazuje to, że generatory tak naprawdę nie działają świadomie, ale „jedynie” najlepiej jak potrafią łączą obrazy, którymi zostały „nakarmione”. Mają one odpowiadać opisowi, który wprowadził użytkownik, ale detale zdradzają, że wygenerowane grafiki są modelami oderwanymi od rzeczywistości, a AI nie ma umiejętności, by trafnie ocenić kontekst obrazu.

Wie, że dłoń tworzą elementy takie jak paznokcie, palce czy śródręcze, umie rozpoznać co jest czym… ale z racji tego, że ich samodzielnie nie tworzy, tylko generuje na podstawie dostępnych danych, zaczyna łączyć obrazy bez uwzględniania anatomicznych, bardzo skomplikowanych w przypadku dłoni, zależności. Są one na tyle złożone, że problemy ma z nimi nie tylko AI, ale także… ludzie. Nie bez powodu w wielu animacjach twórcy decydują się na uproszczenia i wykorzystanie dłoni nie z pięcioma, a np. trzema lub czterema palcami.

W końcu nawet AI zrozumie anatomię

Oczywiście w przyszłości możemy się spodziewać, że sztuczna inteligencja zostanie lepiej wytrenowana, zwłaszcza w analizie trójwymiarowości ludzkiego ciała. Gdy AI zrozumie faktyczny kształt (model 3D) stojący za dwuwymiarowymi zdjęciami, będzie generować coraz lepsze i poprawne anatomicznie obrazy.

pic.twitter.com/V1Yiwj7aum
— no context memes (@weirddalle) January 22, 2023

Bentley twierdzi, że generowanie obrazów to technologia, którą można nadal ulepszać, aby uzyskać większe i bardziej imponujące rzeczy. Obecne obrazy 2D tworzone przez sztuczną inteligencję odejdą do lamusa, a przyszłość należy do bardziej szczegółowych renderów 3D i całych cyfrowych światów.

Źródło: PetaPixel, ScienceFocus, BuzzFeedNews