Meta rozpycha się w branży AI. Model Llama 2 Long bije konkurentów na głowę

4 minuty czytania
Komentarze

Podczas corocznej konferencji Meta Connect w Kalifornii gigant mediów społecznościowych przedstawił Llama 2 Long – zaawansowany model sztucznej inteligencji, który ma generować spójne i trafne odpowiedzi na wyjątkowo długie zapytania użytkowników. Już pojawiły się ewaluacje nowego systemu i w wielu przypadkach w porównaniu do ChatGPT 3.5 czy Claude 2, trzeba uznać wyższość nowego produktu Mety. A w zestawieniu z płatnym GPT-4 wypada niemal tak samo.

Model językowy dla długich zapytań

Podczas niedawnego wydarzenia Meta Connect firma Meta Platforms zaprezentowała kilka ekscytujących funkcji opartych na sztucznej inteligencji dla Facebooka, Instagrama i WhatsAppa. Oprócz tego zaprezentowano także nowy model językowy, zbudowany na kanwie poprzedniego, ale z kilkoma znaczącymi ulepszeniami – poznajcie Llama 2 Long. To ulepszona wersja modelu opartego na open-source, który udostępniono kilka miesięcy temu.

Dzięki temu, że model został przeszkolony na większej liczbie danych zawierających bardziej obszerne teksty, jest przystosowany do obsługi dłuższych sekwencji informacji i pod tym kątem przewyższa inne modele, takie jak GPT-3.5 Turbo i Claude 2 OpenAI.

Llama 2 Long vs. Llama 2

Llama 2 Long potrafi przetwarzać informacje w dłuższym kontekście w porównaniu do swojej poprzedniczki Llama 2 – modelu AI o otwartym kodzie źródłowym, który Meta wydał latem ubiegłego roku. Oznacza to, że jest w stanie zrozumieć dłuższe fragmenty tekstu w jednym przejściu. Jest to szczególnie przydatne w zadaniach, które wymagają głębokiego zrozumienia tła treści i bardziej skomplikowanych analiz.

Llama 2 Long jest w zasadzie rozszerzeniem Llama 2. Jak podaje Interesting Engineering, badacze Meta wykorzystali różne wersje Lamy 2, obejmujące od 7 miliardów do 70 miliardów parametrów. Dodatkowo dodali aż 400 miliardów tokenów danych, które zawierały dłuższe teksty niż oryginalny zbiór danych Llama 2. Tym, co czyni Llamę 2 Long naprawdę szczególną, jest jej zdolność do przetwarzania bardziej rozbudowanych sekwencji informacji.

Jak Llama 2 Long pobiła konkurentów?

To nie premiera nowego modelu językowego, a opublikowane niedługo później badania, wywołały największe zainteresowanie świata technologii. W odniesieniu do poprzedniczki naukowcy zachowali tę samą architekturę oryginalnej Lamy 2 i dokonali jedynie „niezbędnej modyfikacji w kodowaniu pozycyjnym, która jest kluczowa, aby model mógł dłużej działać”. Llama 2 Long może dzięki temu tworzyć wysokiej jakości odpowiedzi na monity użytkownika, które rozciągają się do oszałamiających 200 000 znaków. 

Modyfikacja ta dotyczyła kodowania Rotary Positional Embedding (RoPE), metody programowania modelu transformatora leżącego u podstaw LLM, takich jak Llama 2 (i LLama 2 Long), która zasadniczo odwzorowuje ich osadzenie tokenów (liczby używane do reprezentowania słów, pojęć i pomysłów) na wykres 3D, który pokazuje ich położenie względem innych żetonów, nawet po obróceniu. 

Dzięki temu model może generować dokładne i pomocne odpowiedzi przy mniejszej ilości informacji (a tym samym zajmowaniu mniejszej pamięci obliczeniowej) niż w przypadku innych podejść.

venturebeat.com

W związku z tymi badaniami model sztucznej inteligencji firmy Meta przewyższa część konkurentów w generowaniu odpowiedzi na długie (więcej znaków) monity użytkownika, w tym GPT -3.5 Turbo OpenAI z oknem kontekstowym na 16 000 znaków, a także Claude 2 z jego Okno kontekstowe o pojemności 100 000 znaków.

Jeśli jesteś ciekawy, jakie są perspektywy użycia modeli językowych i czym różnią się one od siebie, polecam wywiad naszego redaktora z dr Tomaszem Ludziejewskim, który pełni rolę Chief Data Scientist w firmie Silver Bullet Solutions. Wyjaśnia on, jak może wyglądać przyszłość modeli takich jak GPT-4, PaLM 2 (Google – Bard), LLama 2 (Meta AI), Bing (Microsoft).

Źródło: Meta raport, oprac. własne

Motyw