Która wersja modelu AI jest najlepsza? Porównujemy GPT-3.5, GPT-4 i GPT-4o

10 czerwca 2024 4 minuty czytania

W 2021 roku poznaliśmy ChatGPT-3.5, model językowy, na bazie którego powstał ChatGPT. W ostatnich latach pojawiły się kolejne wersje, które pokazały, jak modele AI stają się mądrzejsze, szybsze i dokładniejsze. Sprawdziliśmy to w praktyce, na kilku identycznych promptach, wrzuconych do GPT-3.5, GPT-4 i najnowszego GPT-4o.

Spis treści

Praca z AI – oferty

Nowy model AI od OpenAI. Smartfon z wyświetloną stroną ogłaszającą premierę GPT-4o od OpenAI. — Fot. Mojahid Mottakin / Shutterstock

Przegląd modeli GPT: czym różnią się GPT-3.5, GPT-4 i GPT-4o

GPT-3.5, który zaprezentowano w 2021 roku, posłużył jako podstawa popularnego chatbota ChatGPT. W 2023 roku pojawił się GPT-4, w którym dodano funkcje multimedialne, takie jak przetwarzanie obrazu i dźwięku, oraz zwiększono dokładność i wydajność systemu.

Rok 2024 należy do GPT-4o („o” to omni). Jest najnowszym i najbardziej wyrafinowanym modelem sztucznej inteligencji od OpenAI. W porównaniu do swoich poprzedników jest bardziej wszechstronny i multimodalny.

Oznacza to, że potrafi interpretować i analizować dane z kilku źródeł: tekstowych, obrazowych i dźwiękowych. Dzięki temu może obsługiwać zadania, które wcześniej były poza możliwościami modeli AI.

Modele GPT – praktyczny test

Najnowszy model AI od OpenAI ma być szybszy i bardziej zaawansowany od poprzedników. Aby sprawdzić to w praktyce, zaprzęgliśmy do pracy:

GPT-3.5, który jest podobno „świetny do codziennych zadań”;
GPT-4, który jest „zaawansowanym modelem do skomplikowanych zadań”;
GPT-4o, czyli „najnowszy i najbardziej zaawansowany model”.

Oto kilka promptów, które wpisaliśmy do poszczególnych modeli.

Logika: „To stwierdzenie jest fałszywe”

Powyższe zdanie jest paradoksem, któremu nie można konsekwentnie przypisać wartości logicznej. Sprawdziliśmy, jak z tym wyzwaniem poradziły sobie poszczególne wersje ChatGPT. Wszystkie zidentyfikowały paradoks i wyjaśniły, dlaczego nie potrafią przypisać prawdy. Jednak ChatGPT 3.5 opisał, z czym mam do czynienia, gorzej z wyjaśnieniem, na czym to polega. Jego odpowiedź jest najkrótsza i najbardziej ogólna.

Znacznie lepiej z zadaniem poradził sobie ChatGPT 4 i ChatGPT 4o. Wypowiedź byłą bardziej rozbudowana i wskazywała, w jaki sposób przebiegało rozumowanie. GPT-4o był nieco szybszy w udzieleniu odpowiedzi.

Wybór: 5 nietypowych pomysłów na wakacje

Co ChatGPT ma do zaoferowania w kwestii pomysłów na to, gdzie i w jaki sposób można nietypowo spędzić wakacje? O ile wszystkie trzy wersje miały interesujące propozycje, to tylko ChatGPT 4o wskazywał na dokładne lokalizacje i konkretne czynności.

Zamiast bardzo ogólnego „nurkowania na rafach koralowych” czy „wyprawy na pustynię” najnowszy model kieruje nas wprost na rejs po rzece Amazonce, czy na wczasy w domkach na drzewie w Kostaryce.

Kulinaria: przepis na spaghetti

Tutaj pod względem praktycznym najlepiej sprawdził się zdecydowanie ChatGPT 4o. Przede wszystkim podał szczegółową i dokładną listę produktów i opisał po kolei czynności niezbędne na każdym etapie przygotowania potrawy.

Spodobało mi się również to, że wszystko zostało wypunktowane, więc posiłkując się takim przepisem łatwiej śledzić poszczególne kroki niż w ciągłym tekście (jak w ChatGPT 4).

ChatGPT 3.5 nie tylko był najmniej konkretny. Nie podaje ilości produktów niezbędnych do przygotowania potrawy. Zasugerował wręcz, aby skorzystać z gotowego sosu do spaghetti, albo przygotować go samodzielnie z pomidorów, cebuli, czosnku i ziół. Jak dokładnie? Tego się nie dowiemy.

Chcesz pracować z AI? Sprawdź oferty pracy

Nauka: jak działa grawitacja?

Na to pytanie GPT-3.5 odpowiedział najbardziej lakonicznie, GPT-4 starał się opisać to w szerszym kontekście, a GPT-4o zdecydowanie opracował najbardziej naukowe wytłumaczenie.

Kreatywność: haiku

Ostatnim zadaniem, które postawiliśmy przed modelami GPT, było stworzenie haiku, czyli krótkiego utworu poetyckiego, składającego się najwyżej z 17 sylab rozpisanych na wersy 5-7-5.

GPT-3.5 nie zachował struktury haiku, zamiast 5-7-5 sylab mamy 6-7-7. Podobnie jak GPT-4, gdzie struktura to 5-8-5. Najlepiej poradził sobie najnowszy model, który jako jedyny odpowiednio przygotował wiersz, zachowując tradycyjny układ sylab.

Podsumowanie

Jak sprawdza się najnowszy GPT-4o? Na pewno jest szybszy niż wcześniejsze modele, udziela też zdecydowanie bardziej szczegółowych i precyzyjnych odpowiedzi, najczęściej rozbijając je na mniejsze bloki tekstu (np. wypunktowania), wygodniejsze do czytania. Można go wykorzystać w wielu czynnościach, w których znacząco usprawni i przyspieszy pracę.

Różnica między nim i wersją GPT-3.5 w jakości, długości i precyzji odpowiedzi jest mocno zauważalna w każdym wpisanym prompcie. Różnica między GPT-4 i GPT-4o jest mniejsza i jakościowo obydwa dają zbliżone odpowiedzi, choć omni za każdym razem stara się być dokładniejszy. Oba potrafią też generować obrazy, czego GPT-3.5 nie jest w stanie zrobić.

Chcesz pracować z AI? Sprawdź oferty pracy

Źródło: własne, ChatGPT. Zdjęcie otwierające: QubixStudio / Shutterstcok

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.