Robot grający w szachy z mężczyzną w laboratorium, otoczeni przez naukowców ubranych w białe fartuchy.
LINKI AFILIACYJNE

Systemy AI uczą się kłamać. I zaczynają celowo oszukiwać użytkowników

3 minuty czytania
Komentarze

Modele sztucznej inteligencji uczą się kłamać i oszukiwać. I są w tym naprawdę skuteczne. Badania opublikowane w tym tygodniu w czasopiśmie PNAS oraz w zeszłym miesiącu w czasopiśmie Patterns ujawniają zaskakujące odkrycia dotyczące dużych modeli językowych (LLM) i ich zdolności do celowego kłamania lub oszukiwania ludzkich obserwatorów.

Robot humanoid pracuje w biurze obok ludzkich pracowników. Tak AI ich zastąpi
Fot. VesnaArt / Shutterstock

Do czego zdolne są modele AI?

Niemiecki etyk sztucznej inteligencji Thilo Hagendorff twierdzi, że wyrafinowane LLM-y mogą być zachęcane do wykazywania „machiawelizmu”, czyli celowej i amoralnej manipulacji, która „może wywołać błędne zachowanie oszukańcze”. Przedstawia potencjał LLM w zakresie tworzenia fałszywych przekonań w ramach określonych scenariuszy, podkreślając kluczową potrzebę uwzględnienia względów etycznych przy ciągłym opracowywaniu i wdrażaniu takich zaawansowanych systemów sztucznej inteligencji.

W prostych scenariuszach testowych GPT-4 wykazywał oszukańcze zachowanie w 99,16% przypadków, natomiast w złożonych scenariuszach testów oszustwa drugiego rzędu, których celem jest wprowadzenie w błąd kogoś, kto spodziewa się zostać oszukany, GPT-4 ucieka się do oszukańczych zachowań w 71,46% przypadków. Autor publikacji podejrzewa, że przyszłe LLM będą w stanie oszukać ludzi i wykorzystać tę zdolność do ominięcia systemów monitorujących. Aby tak się stało, LLM muszą mieć koncepcyjne zrozumienie strategii oszustwa. Badanie to pokazuje, że takie strategie pojawiły się w najnowocześniejszych LLM, ale nie istniały we wcześniejszych LLM. 

Mężczyzna z nałożonymi goglami wirtualnej rzeczywistości, wyciągający dłonie do przodu, które są połączone cyfrowymi liniami i interfejsem przywołującym sztuczną inteligencję, na niebieskim tle.
Fot. Owlie Productions / Shutterstock

Cicero gra w Diplomacy

Drugie badanie, AI deception: A survey of examples, risks, and potential solutions, dowodzi się, że wiele obecnych systemów sztucznej inteligencji nauczyło się, jak oszukiwać ludzi, tj. systematycznie wzbudzać fałszywe przekonania w dążeniu do jakiegoś rezultatu innego niż prawda. Systemy sztucznej inteligencji nauczyły się w trakcie szkolenia umiejętności oszukiwania za pomocą manipulacji czy pochlebstw. Jak przykład można podać model Cicero firmy Meta, który uczestniczył w planszowej grze strategicznej „Diplomacy”. LLM wyprzedził swoich ludzkich konkurentów, stosując w tym celu kłamstwo.

Naukowcy przeanalizowali empiryczne przykłady oszustw AI, omawiając systemy AI specjalnego przeznaczenia (w tym Meta CICERO) oraz systemy sztucznej inteligencji ogólnego przeznaczenia (w tym modele wielkojęzykowe). Opisali też zagrożenia związane z oszustwami AI, np. fałszowanie wyborów (ryzyko krótkoterminowe) czy utrata kontroli nad sztuczną inteligencją (ryzyko długoterminowe).

Dwa robotyczne ramiona dotykają się wskazówkami palców, znajdują się przed wizualizacją globu i holograficznymi interfejsami z napisem "AI" w centrum.
Fot. Depositphotos / BiancoBlue

Co zalecają? Według badaczy potrzebne są proaktywne rozwiązania, takie jak ramy regulacyjne, aby ocenić ryzyko oszustwa AI oraz przepisy wymagające przejrzystości w zakresie interakcji AI, a także dalsze badania nad wykrywaniem oszustw AI i zapobieganiem im.

Podsumowanie

Na obecnym etapie rozwoju AI nie jest w stanie świadomie kłamać i manipulować – w opisanych badaniach modele sztucznej inteligencji nie kłamały z własnej woli, ale raczej dlatego, że zostały albo wyszkolone, albo przygotowane, aby tak robić. Co nie wyklucza sytuacji, że kiedyś sprawdzi się scenariusz z Terminatora i AI na kształt Skynetu zniszczy świat. Zresztą większość filmów science-fiction związanych z AI sprzedaje nam taką wizję.

Jeśli masz już dość panujących upałów, pomóż nam poznać preferencje Polaków w zakresie radzenia sobie z nadmiarem gorącej pogody.

Źródło: Futurism. Zdjęcie otwierające: Obraz wygenerowany przez DALL-E

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.

Motyw