Przyszłość modeli językowych. GPT-4, LLama 2 czy PaLM 2, jeszcze nie wykorzystują pełni potencjału

9 września 2023 14 minut czytania

Obecnie z AI w postaci LLM (dużych modeli językowych) skorzystać może każdy. W rozmowie z dr Tomaszem Ludziejewskim, który pełni rolę Chief Data Scientist w firmie Silver Bullet Solutions zapytaliśmy m.in. o porównanie oraz przyszłość modeli takich jak GPT-4, PaLM 2 (Google — Bard), LLama 2 (Meta AI), Bing (Microsoft). W naszym poprzednim wywiadzie poruszaliśmy z kolei kwestię AI w świecie polityki. I tego co nam w związku z tym w Polsce grozi.

Spis treści

Wyścig zbrojeń modeli językowych. Wywiad z Dr Tomaszem Ludziejewskim

Różnice w modelach AI

Krzysztof Wilamowski: Każde z narzędzi bądź modeli AI (GPT-4, Google Bard, Llama 2, TruthGPT) jest w pewnym sensie unikalne. Jak te systemy różnią się pod względem architektury, funkcjonalności, zdolności do uczenia się i adaptacji?

Dr Tomasz Ludziejewski: W ostatnich kilku latach jesteśmy świadkami intensywnego rozwoju, niemalże wyścigu zbrojeń w dziedzinie zastosowań modeli językowych w AI. Punktem zwrotnym w rozwoju sztucznej inteligencji odpowiedzialnej za rozumienie języka naturalnego człowieka i wnioskowanie na nim oparte, była przełomowa koncepcja architektury transformers i implementacja mechanizmów atencji w głębokich sieciach neuronowych. Została ona zaproponowana po raz pierwszy w 2017 roku przez dział badawczy Google – Google Brain. Dzięki niej modele językowe odpowiedzialne za wnioskowanie lub generację tekstu zyskały zdolność do głębszego rozumienia kontekstu oraz relacji między pojęciami języka naturalnego człowieka.

Co więcej, idea ta przyczyniła się do wzrostu zdolności modeli do generalizacji, przejawiającej się w radzeniu sobie z nieznanymi pojęciami, nieobecnymi w danych wykorzystywanych do uczenia AI. Na jej podstawie w ostatnich kilku latach powstał szereg implementacji głębokich sieci neuronowych dla zastosowań w przetwarzaniu języka naturalnego, takich jak BERT, RoBERTa, a w obszarze językowych sieci generatywnych sieci w architekturze GPT.

Obecnie, wszystkie kluczowe generatywne modele języka: GPT-4 (OpenAI), PaLM 2 (Google – Bard), LLama 2 (Meta AI), Bing (Microsoft), oparte są o głębokie sieci neuronowe wykorzystujące architekturę transformers. W przypadku rozwiązania OpenAI ChatGPT i Microsoft – Bing zasadniczo wykorzystywana jest ta sama architektura sieci, czyli tzw. Generative Pretrained Transformers (GPT-4). Różnice między nimi polegają jedynie na sposobie dostarczania danych dla systemu konwersacyjnego opartego na modelu GPT i na użytych metodach generacji tekstu. Oba rozwiązania wspierają tzw. tryb multimodalny, czyli posiadają możliwość równoległego przetwarzania i generowania innych typów danych niż tekst, np. grafiki.

Kluczową różnicą między rozwiązaniem OpenAI (ChatGPT) a Microsoftu (Bing) jest fakt, iż ChatGPT bazuje na modelu języka „zamkniętym”, którego wiedza sięga do połowy 2021 roku. Tymczasem Bing, dzięki połączeniu z mechanizmami wyszukiwarki Microsoftu, potrafi dostarczać odpowiedzi odnoszące się do aktualnie indeksowanych treści w sieci, referując przy tym do informacji źródłowych w internecie. Oznacza to, na przykład, że Bing bez trudu powinien odpowiedzieć na pytania o obecne interesujące wydarzenia kulturalne w Twoim mieście i zaproponuje miejsce, gdzie można kupić bilety. ChatGPT takiej zdolności nie posiada.

Wyróżniającą cechą modeli GPT wykorzystywanych w ChatGPT i Bing w stosunku do konkurencji jest ich zdolność do uczenia się generowania tekstu zgodnego z oczekiwaniami człowieka tj. adaptacją do ludzkiej percepcji poprawności generowanego tekstu. W tym celu trenując model GPT, stosuje się technikę uczenia ze wzmocnieniem bazującą na ocenach ludzkich, znaną jako RLHF (reinforcement learning from human feedback). Co ciekawe, metoda ta często nie polega na bezpośrednim wykorzystaniu ludzkich ocen do trenowania modelu. Zamiast tego tworzony jest dodatkowy system AI, który uczy się oceniać generowany tekst na wzór człowieka, bazując na rzeczywistych ocenach ludzi. Ostatecznie, to właśnie ten dodatkowy mechanizm AI nadzoruje proces uczenia modelu GPT.

Model użyty w Google Bard został zaprojektowany z myślą o jego wykorzystaniu w zadaniach związanych z wyszukiwarką internetową i w mniejszym stopniu zorientowany jest na zdolność do prowadzenia dialogu i utrzymywanie długo-zasięgowego kontekstu tego dialogu. Jest on też w znacznie mniejszym stopniu skorygowany na poprawność w ocenach przez człowieka, co może być postrzegane jako jego wada lub zaleta. Interesującą cechą modelu Google jest z całą pewnością jego znacznie lepsza zdolność do radzenia sobie z problemami matematycznymi, logicznymi i zadaniami związanymi z generowaniem kodu/pseudokodu oprogramowania. Ponadto Google Bard potrafi skutecznie skorzystać z danych lokalizacyjnych użytkownika, o ile on na to zezwoli, a dodatkowo użytkownik ma możliwość, podobnie jak w Microsoft Bing, sterowania stylem konwersacji.

Model LLama 2 opracowany przez Meta został natomiast stworzony z myślą o jego wykorzystaniu w zadaniach związanych z mediami społecznościowymi, takimi jak generowanie treści i odpowiadanie na komentarze, ale Meta opracowało też wariant LLama 2 Chat o charakterystyce zbliżonej do innych modeli konwersacyjnych, gdzie również wykorzystane zostało podejście RLHF. Modele językowe opracowane przez Meta wyróżniają się na tle konkurencji sposobem licencjonowania, należą do obszaru otwartego oprogramowania i mogą one być wykorzystywane przez potencjalnych użytkowników również w celach komercyjnych.

Rozwój dużych modeli językowych

KW: Które z obecnie funkcjonujących modeli językowych jest według Silver Bullet Solutions najbardziej zaawansowane, a jakie ma największy potencjał na rozwój?

W naszej subiektywnej ocenie model języka ChatGPT-4, opracowany przez firmę OpenAI, jest obecnie najbardziej zaawansowanym i najbardziej wszechstronnym rozwiązaniem. Wynika to przede wszystkim z faktu, że prace rozwojowe związane z opracowaniem ChatGPT prowadzone były już od kilku lat, podczas gdy rozwiązania konkurencyjne powstały w ostatnich kilkunastu miesiącach. Kluczowe znaczenie ma nie tylko ilość, ale także selekcja i zrównoważenie treści używanych do trenowania modelu GPT. Materiał, na podstawie którego zostały wytrenowane modele GPT, zdaje się być tak dobrany, by właściwie odzwierciedlał ogrom wiedzy ludzkości (dostępnej publicznie), choć bazuje on na źródłach opublikowanych nie później niż do września 2021 roku. Z całą pewnością duże modele językowe będą dalej ewoluowały, a aplikacje na nich oparte zasadniczo zmienią sposób, w jaki pozyskujemy wiedzę i w jaki wchodzimy w interakcję z technologią.

Wydaje nam się, że w dłuższej perspektywie duży potencjał rozwojowy leży w rozwiązaniach, nad którymi pracuje firma Google. To właśnie Google przede wszystkim stoi za pierwotnym pomysłem LLM, ale jak się wydaje początkowo, nie dostrzegł pełnego zakresu możliwości tego typu rozwiązań. O sukcesie i dalszym rozwoju tworzonych rozwiązań zdecydują elementy, takie jak zdolności badawczo-rozwojowe organizacji, potencjał ekonomiczny oraz doświadczenie
w pozyskiwaniu treści. Wydaje się, że w tych aspektach firma Google wypada najkorzystniej na tle konkurencji. Można też przypuszczać, że swoisty wyścig zbrojeń w dziedzinie tworzenia i wykorzystywania dużych modeli językowych zakończy się wyłonieniem jednego dominującego dostawcy rozwiązań, tak jak stało się np. w przypadku wyszukiwarek internetowych.

Ewolucja i uczenie się na błędach

KW: Jak te systemy ewoluowały na przestrzeni czasu? W jakim stopniu są w stanie uczyć się na swoich błędach i jak to robią?

Ewolucja LLM w ostatnich kilku latach polegała przede wszystkim na rozwoju poprzez budowanie coraz to większych modeli, gdzie wielkość mierzona jest w liczbie parametrów optymalizowanych w głębokiej sieci neuronowej. Warto tutaj podkreślić, że pierwsze modele LLM, np. GPT-1, zawierały ok. 100 mln parametrów, a opracowany parę miesięcy temu GPT-4 zawiera ok. 1.7 tryliona parametrów — jest więc 10 000 razy większy.

Wzrost skali modeli musiał iść w parze z odpowiednio wydajną infrastrukturą obliczeniową. W przypadku modelu GPT-4 wykorzystywane były tysiące specjalizowanych procesorów graficznych (tzw. TPU), a koszty związane z wytrenowaniem tego modelu szacuje się na ponad 60 mln dolarów. Natomiast koszt dzienny utrzymania usług związanych z udostępnieniem ChatGPT w wariancie 4 szacuje się na 700 tys. dolarów. Koszty są więc tak duże, że obecnie na świecie jest jedynie kilka firm zdolnych do prowadzenia prac rozwojowych i udostępniania usług związanych z tworzeniem modeli języka wielkiej skali.

Rynek ten będzie musiał ewoluować do rozwiązań niekierowanych paradygmatem „większe jest lepsze”. Ewolucja w najbliższej przyszłości będzie musiała polegać na zmianach koncepcyjnych, a nie metodach brute-force polegających na tworzeniu coraz większych modeli. OpenAI dementowało ostatnio wielokrotnie pogłoski o pracach nad modelem GPT-5. Prawdopodobnie prace prowadzone przez liderów koncentrują się obecnie nad zmianami w architekturze głębokich sieci neuronowych i na poprawie efektywności uczenia modeli i reprezentacji danych uczących.

Z drugiej strony, pojawia się coraz więcej głosów wspierających tezę, że atrakcyjną alternatywą dla LLM są specjalizowane SLM (Small Language Models) tworzone dzięki aktywnej społeczności open-source i wykorzystujące techniki optymalizacyjne, takie jak transfer i destylacja wiedzy, efektywne mechanizmy atencji i uczenie ze wzmocnieniem. W szczególności kluczowym elementem skutecznego uczenia generatywnych modeli językowych jest właśnie wdrożenie mechanizmów uczenia ze wzmocnieniem, gdzie model optymalizowany jest w taki sposób, że maksymalizowana jest wartość oceny generowanego tekstu przez człowieka wprost lub przez dedykowany do tego celu inny model języka. Odpowiada on za ocenę i korektę błędów popełnianych przez model generatywny.

Przyszłość LLM

KW: Obecnie jesteśmy w stanie przewidzieć, gdzie znajduje się sufit LLM, czy też przyjmuje się, że czeka nas niekończący się rozwój?

Wydaje się, że ostatecznym celem, do którego zmierza lub powinien zmierzać rozwój modeli językowych, jest zdolność do zgromadzenia w nich całej dostępnej wiedzy ludzkości, wypracowanie mechanizmów wnioskowania i interpretacji przewyższających te, do których zdolny jest człowiek, a następnie stworzenie narzędzi umożliwiających swobodne i efektywne komunikowanie się takiego AI z ludźmi w ich naturalnym języku. Byłoby również wskazane, żeby jednym z zamiarów tworzenia LLM była demokratyzacja tej wiedzy, czyli jej udostępnienie ludziom na całym świecie niezależnie od ich poziomu wykształcenia czy ich sytuacji materialnej. Oczywiście, rozwój LLM wiąże się również z wyzwaniami, takimi jak zagrożenia etyczne czy np. możliwość wykorzystywania wiedzy zawartej w LLM w złych zamiarach.

Zastosowania i ograniczenia wielkich modeli językowych

KW: AI jest już wykorzystywane w różnych dziedzinach, takich jak biznes, edukacja, polityka. Systemy często usprawniają wyszukiwanie i zbieranie danych, a także pomagają w rozwiązaniach kreatywnych, jednak z jakich funkcji o dużym potencjale obecnie korzysta się za rzadko?

Wydaje się, że nie do końca wykorzystany obecnie potencjał LLM tkwi w ich multi-modalności. Mutli-modalność oznacza, że głęboka sieć neuronowa jest uczona na materiałach zawierających więcej niż jeden format tj. oprócz warstwy tekstowej na przykład dźwięk lub obraz. Oznacza to, że użytkownicy mogliby potencjalnie komunikować się z modelem za pomocą różnych, także innych niż tekst, środków wyrazu. Otwiera to możliwość tworzenia nowych typów aplikacji i usług, w których interakcja pomiędzy modelem a człowiekiem zachodzi na wielu płaszczyznach jednocześnie, takich jak tekst i obraz, czyniąc komunikację bardziej wartościową.

Szczególnym przypadkiem, któremu poświęcono stosunkowo mało badań, jest działanie modeli generatywnych, nie w sferze języka naturalnego a dźwięku, czyli np. generowaniu muzyki. Modele mogą być trenowane na istniejących zbiorach danych muzycznych, a następnie wykorzystane do generowania nowych unikalnych utworów, również z wykorzystaniem techniki style-transfer. Umożliwia ona przenoszenie czy aplikowanie określonego stylu muzycznego na tworzony utwór, czy też adoptowanie jednego utworu muzycznego do brzmienia innego znanego artysty, prowadząc do tworzenia nowych form ekspresji lub unikalnych utworów dostosowanych do preferencji użytkownika. Co ciekawe, modele takie są również zdolne do wytworzenia nowego utworu muzycznego wybranego artysty.

AI przyszłością armii

KW: Istnieją jednak obszary, które mają większy wpływ na ludzkie życie i wygląd obecnego świata. Jak systemy AI mogą sprawdzić się w środowiskach wojskowych lub przy tworzeniu prawa czy w sądownictwie? Jest to bezpieczne, czy może korzyści są zbyt małe w porównaniu do potencjalnych zagrożeń?

Obszar wojskowości to dość specyficzna dziedzina, ale bez wątpienia AI (choć niekoniecznie modele języka) znajduje i będzie znajdowało zastosowanie. Obecnie dość powszechnie przez armię stosowaną techniką jest analiza zdjęć i nagrań wideo, identyfikacja celów na polu walki lub identyfikacja strategicznych miejsc w terenie. Ponadto AI jest szeroko wykorzystywane w kierowaniu i podejmowaniu decyzji przez drony i inne pojazdy autonomiczne i inteligentną broń.

drony bojowe — Fot. Materiały prasowe GA-ASI

AI znajduje również szerokie zastosowanie w elektronicznych systemach walki, śledzeniu czy zakłócaniu systemów komunikacji, a także w analizie danych wywiadowczych, gdzie wprost może zostać wykorzystany potencjał dużych modeli językowych. Można przypuszczać, że wojskowość będzie intensywnie nadal wdrażać nowe technologie bazujące na AI, zwłaszcza że siły zbrojne dysponują zwykle znaczącymi środkami finansowymi.

W obszarze prawa i sądownictwa systemy AI oparte o modele językowe, takie jak BERT i pokrewne, skutecznie mogą wspierać proces analizy dokumentów i proces wyszukiwania informacji wykorzystując mechanizmy semantyczne, a nie leksykalne, a więc wyszukując po znaczeniu czy też intencji pytań użytkownika. Ponadto, dzięki zdolności do semantycznej analizy wielu źródeł i kontekstów, AI może sugerować interpretacje przepisów prawa lub monitorować i syntetyzować zmiany w prawodawstwie. W pewnych jurysdykcjach istnieją już systemy bazujące na AI automatycznie rozstrzygające spory np. dotyczące transakcji e-commerce.

Ograniczenia sztucznej inteligencji

KW: Żaden system nie jest idealny. Odchodząc od konkretnych dziedzin, jakie są główne ograniczenia AI? I które z nich z Waszej perspektywy jesteśmy w stanie pokonać w pierwszej kolejności?

Większa część zaawansowanych technologii AI należy do sfery tzw. Non-explainable AI, czyli systemów, których działania i decyzje są trudne do zinterpretowania. Można powiedzieć, że systemy te stanowią rodzaj „czarnych skrzynek”. Trudno jest jednoznacznie wskazać i wyjaśnić przyczynę, dla której AI podjęło określoną decyzję. Niejasność działania tych modeli prowadzi do wyzwań w wielu dziedzinach, gdzie przejrzystość i zrozumiałość decyzji jest kluczowa. Dobrym przykładem może być medycyna (dlaczego model zaleca pewien rodzaj terapii lub stawia określoną diagnozę), prawo (dlaczego model językowy zakwalifikował fragment umowy konsumenckiej jako abuzywny) lub finanse (jak model doszedł do decyzji w sprawie udzielenia kredytu). Dążenie do tworzenia „explainable AI”, czyli wyjaśnialnej sztucznej inteligencji, jest obecnie aktywnym obszarem badań nad AI.

Kolejnym problemem, czy też ograniczeniem, obecnie opracowywanych rozwiązań AI jest ich zawodność. Pomimo imponujących osiągnięć, modele AI potrafią popełniać błędy nawet w sytuacjach, które dla człowieka są oczywiste. Łączy się to zresztą z zagadnieniem wyjaśnialności działania AI. Zaawansowane rozwiązania AI zwykle wymagają ogromnych ilości danych, które nie zawsze są łatwe do pozyskania albo ich możliwość użycia ograniczona jest regulacjami prawnymi, takimi jak te dotyczące danych wrażliwych, osobowych czy własności intelektualnej. Co więcej, wiele zagadnień wymaga danych wykorzystywanych do uczenia, które są odpowiednio oznaczone (zaetykietowane) przez człowieka, co jest procesem kosztownym. W tym ostatnim przypadku odnotować można duży postęp związany z opracowaniem technik uczenia nienadzorowanego, ‘few-shot’ learningu lub ‘zero-shot’ learningu. Metody te ograniczają albo eliminują wymagania związane z etykietowaniem danych w celu uczenia modeli.

Istotnym problemem powiązanym z rozwojem AI stają się też kwestie społeczne i etyczne związane z prywatnością, nieobiektywnością danych (tzw. biasem w danych uczących), czy utratą miejsc pracy w pewnych sektorach gospodarki, w których następuje automatyzacja procesów poprzez wykorzystanie AI.