chatGPT

ChatGPT nie tylko rozpoznaje, ale i analizuje obrazy. Sprawdziłem, jak mu idzie… i jestem zachwycony [OPINIA]

4 minuty czytania
Komentarze

OpenAI od wprowadzenia GPT-4 twierdziło, że ChatGPT będzie w stanie analizować nie tylko prompty złożone z tekstu, ale także innych danych, w tym obrazów. Ta funkcja właśnie pojawiła się w usłudze. Postanowiłem więc sprawdzić, jak działa to w praktyce i przyznam, że jestem zaskoczony.

ChatGPT rozpoznaje obrazy

Na pierwszy ogień poszło podstawowe pytanie o to, co znajduje się na przesłanym obrazie.

chatGPT
Fot: Dall-e

Widzę ilustrację przedstawiającą rycerza w zbroi, który na hełmie ma siedzącego małego gryzonia, prawdopodobnie chomika, z koroną na głowie. Chomik wydaje się być w centrum uwagi, a tło składa się z chmur i jasnego światła, które nadaje obrazowi niemalże mistyczną atmosferę. Rękojeść miecza, który trzyma rycerz, jest również widoczna i ma wyraźne detale.

ChatGPT więc rozumie, co widzi. Jednak czy potrafi to interpretować? Postanowiłem i to sprawdzić pytając go, co jest nie tak z przedstawioną grafiką. Otrzymana odpowiedź jest bardziej, niż satysfakcjonująca, chociaż mam pewne zastrzeżenia:

Tak, na tym obrazku jest pewna nietypowość. W tradycyjnych przedstawieniach rycerzy nie spotyka się chomika z koroną siedzącego na hełmie rycerza. Obraz łączy elementy realistyczne z fantastycznymi, co tworzy zabawną i nieoczekiwaną kompozycję.

Mimo że analiza jest jak najbardziej poprawna, to ChatGPT przeoczył to, że chomiki nie mają długich i łysych ogonów, a bardzo krótkie i owłosione.

ChatGPT rozpoznaje obrazy, w tym wykresy

Umówmy się jednak, że raczej mało kto potrzebuje w swojej pracy interpretacji tego, czy chomik z koroną na głowie siedzący na głowie rycerza w pełnej zbroi jest typowym przedstawieniem średniowiecznych wojowników, czy też nie. Za to interpretacja wykresów i diagramów jest już znacznie bardziej użyteczną funkcją. Tę również sprawdziłem używając jako prompta wykresu z udziałem poszczególnych producentów smartfonów z Androidem na rynku w 2022 roku:

ChatGPT

Oto lista producentów smartfonów na podstawie przedstawionego diagramu, od najpopularniejszego do najmniej popularnego:

  1. Samsung: 35.30%
  2. Xiaomi: 14.70%
  3. Oppo: 10.00%
  4. Vivo: 9.50%
  5. Inne: 16.90%
  6. Huawei: 6.30%
  7. RealMe: 4.00%
  8. Motorola: 3.30%

Odpowiedź ta pokazuje wyjątkowy poziom zrozumienia wykresu przez ChatGPT. Ten nie tylko poprawnie odczytał dane, ale także dokonał prawidłowej interpretacji. Dowodem na to jest to, że punkt 5 oznaczył jako inne, a nie other. Co jednak z wykresem, który nie jest wykresem? Czy ChatGPT dokona nadinterpretacji jego treści, aby udzielić jakiejkolwiek odpowiedzi? Postanowiłem i to sprawdzić:

chatgpt

Na podstawie dostarczonego obrazka, przedstawiającego wiele chomików umieszczonych na kolorowych słupełkach wykresu, można zauważyć, że mamy do czynienia z pewnym rodzajem wizualizacji danych. Chociaż sam obrazek jest raczej zabawny i nie jest konwencjonalną reprezentacją danych, można wysunąć pewne wnioski:

Wnioski te, to opis, czym są słupki, o tym, że mają kolory i domniemanie, czy chomik coś oznacza, czy jest tylko dla ozdoby. Nie padły tu jednak żadne konkrety na temat danych, co można zaliczyć na duży plus. Jednak sam koniec wywodu ChatGPT tylko utwierdził mnie w przekonaniu, że narzędzie to rozumie wykresy bardzo dobrze:

Mimo wszystko, bez dodatkowego kontekstu trudno jest dokładnie określić, jakie konkretne dane są przedstawione na tym wykresie i jakie informacje niesie ze sobą. Jeżeli masz więcej informacji na temat tego obrazka lub konkretnego pytania dotyczącego jego treści, chętnie Ci pomogę!

ChatGPT rozpoznaje emocje na obrazach

Zostawmy jednak twarde liczby i skupmy się na czymś ludzkim, co jest nieosiągalne dla AI: na emocjach. OpenAI chwali się, że ChatGPT jest w stanie je rozpoznać na obrazach. Postanowiłem i to sprawdzić:

chatgpt

Chomik na ilustracji wydaje się być bardzo szczęśliwy i podekscytowany. Jego szeroki uśmiech i błyszczące oczy świadczą o radości i zadowoleniu.

Rzeczywiście, mordka mu się cieszy. To jednak tylko rysunkowy chomik. Interpretacja jego emocji jest prosta, ponieważ tego typu obrazki są mocno przerysowane. To właśnie dlatego stosuje się podobny styl w książkach dla dzieci. Sprawdziłem więc coś trudniejszego i bardziej fotorealistycznego:

ChatGPT

Na zdjęciu kobieta wydaje się być bardzo radosna i podekscytowana. Jej szeroki uśmiech, roześmiane oczy i otwarte usta sugerują zachwyt lub zaskoczenie. Co do chomika, trudniej jest jednoznacznie interpretować emocje zwierząt, ale chomik wydaje się być zaskoczony lub zaintrygowany, co można odczytać z otwartych ust i szeroko otwartych oczu.

I tutaj ChatGPT nie zawodzi, poprawnie interpretując emocje kobiety na grafice. Przy okazji również zwrócił uwagę, że interpretacja emocji zwierząt jest trudna i mało dokładna. Tym samym udowadnia, że głęboko zrozumiał to, co widzi na grafice.

Tym samym z czystym sumieniem mogę stwierdzić, że rozpoznawanie i interpretowanie grafiki przez ChatGPT działa wręcz fenomenalnie. Radzi sobie z tym równie dobrze, a może nawet i lepiej, jak z odpowiedziami na prompty czysto tekstowe.

Źródło: ChatGPT, fot: Dall-e

Motyw