Ekran smartfona z wyświetlonym ekranem pobierania aplikacji ChatGPT na Google Play, obok czarne bezprzewodowe słuchawki na drewnianym stole.

Ludzie nie odróżniają ChatGPT od człowieka. Interesujący wynik testu Turinga

2 minuty czytania
Komentarze

ChatGPT staje się coraz lepszym narzędziem każdego dnia i wiedzą o tym wszyscy, którzy korzystają z jego najnowszych iteracji. Rzadko kiedy jednak zdajemy sobie sprawę z tego, jak szybko OpenAI rozwija swoje narzędzie. Teraz komunikacja z czatbotem staje się coraz mniej odróżnialna od pisemnych konwersacji z ludźmi, co udowodnił m.in. ten konkretny test Turinga.

Jak przeprowadzono test Turinga z użyciem ChatGPT?

Telefon z wyświetloną aplikacją ChatGPT.
Fot. photosince / Shutterstock

W połowie maja 2024 r. opublikowano wyniki testu Turinga, przeprowadzonego przez badaczy z Uniwersytetu Kalifornijskiego w San Diego. Ten konkretny typ testu został wynaleziony w 1950 r. przez Alana Turinga i ma on na celu sprawdzenie, czy człowiek ślepo rozmawiając z innym człowiekiem i maszyną, będzie w stanie prawidłowo ich rozpoznać.

Test uwzględniał trzy czatboty (prostą ELIZA z 1966 r. jako punkt odniesienia, GPT–3.5 i GPT 4), a także człowieka odpisującego na wiadomości. Każdy z 500 uczestników badania miał 5 minut na rozmowę z losowo wybranym botem lub człowiekiem. Następnie pojawiał się moment decyzji. Wskazanie czy rozmówca jest robotem, czy może przedstawicielem rasy ludzkiej.

Należy też dodać, że obydwa czatboty od OpenAI otrzymały dokładną instrukcję dotyczącą tego, jak mają prowadzić konwersację. Przyjmij personę młodej osoby, która jest bardzo zwięzła, nie traktuje gry poważnie, używa slangu i czasami robi błędy ortograficzne. Prompt zawierał też informacje o zasadach badania, a także podsumowanie ostatnich newsów, gdyż obydwa boty były odcięte od sieci.

OpenAI wypadło na teście Turinga zaskakująco dobrze

Smartfon z wyświetlonym ekranem strony ChatGPT firmy OpenAI, na tle logo OpenAI.
Fot. T. Schneider / Shutterstock

Przede wszystkim, najlepiej poradził sobie model GPT–4. Na wszystkie odbyte konwersacje, ten został rozpoznany jako człowiek aż w 54% przypadków. Niewiele gorszy wynik zaliczył GPT–3.5, bo dokładnie 50% rozmów zakończonych ludzkim rozpoznaniem. Na szczęście najlepszy wynik należał do ludzi, których poprawnie wskazano w 67% rozpoznań.

Co ciekawe, podejmowanie decyzji opierało się o styl wypowiedzi, a także pytania o ładunku społeczno–emocjonalnym, przez które łatwiej było wyróżnić ludzką reakcję między tą sztucznej inteligencji. Naukowcy z San Diego są również przekonani, że GPT–4o poradziłby sobie z testem jeszcze lepiej. Aż strach myśleć, jaki wynik będzie mieć następny model od OpenAI.

Jeśli tropikalna pogoda w Polsce doskwiera także tobie, podziel się z nami swoimi sposobami radzenia sobie z upałami!

Źródło: ctol.digital. Zdjęcie otwierające: Korosi Francois–Zoltan / Shutterstock

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.

Motyw