Polski model językowy Bielik przechodzi ogromne zmiany. „Chcemy dorównać liderom”

28 sierpnia 2024 11 minut czytania

Bielik, polski model AI, o którym głośno było pierwszy raz kilka miesięcy temu, wraca w jeszcze lepszej odsłonie. Ulepszonej, usprawnionej, zdolniejszej.

W rozmowie z Sebastianem Kondrackim oraz innymi twórcami Bielika z Fundacji i Społeczności SPEAKLEASH a.ka. Spichlerz, dopytaliśmy nie tylko o obecny stan projektu, ale i jego przyszłość. Autorzy mówią wprost – chcemy dorównać liderom i to szybko.

Spis treści

Bielik – czym tak naprawdę jest polskie AI?

orzeł bielik — **Przypominamy –„ptasi” Bielik nie ma śnieżnobiałego upierzenia.** Fot. Jevgeni Fil / Unsplash

Choć pośród osób mocno żyjących stale ewoluującym tematem sztucznej inteligencji, działalność Fundacji Spichlerz i Cyfronet AGH jest doskonale znana i nie wymaga przedstawienia, tak zdajemy sobie sprawę z tego, że czytają nas także i osoby, które z Bielikiem będą miały styczność teraz po raz pierwszy.

Jeżeli zaliczacie się do tej pierwszej grupy – możecie bez skrupułów przescrollować kilka akapitów, aż do części poświęconej samej rozmowie z twórcami. Jeśli jednak czujecie, że nie jesteście do końca zaznajomieni z polskim modelem AI, lub po prostu chcielibyście uporządkować wiedzę na temat Bielika – służymy pomocą.

Odpowiadając więc na podstawowe pytanie, czym Bielik jest… należałoby, w dużym skrócie, sprowadzić to do następującego stwierdzenia. To polski LLM, czyli duży model językowy, który powstał dzięki współpracy przede wszystkim dwóch podmiotów. Wspomnianych już Fundacji Speakleash a.k.a. Spichlerz oraz Akademickiego Centrum Komputerowym Cyfronet AGH.

Jak sami twórcy twierdzą:

Inicjatywa ta narodziła się z potrzeby stworzenia zaawansowanych narzędzi AI dostosowanych do unikalnych wymagań języka polskiego.
Speakleash, materiały prasowe

Model Bielik to obecnie najbardziej medialny byt w ramach szerszego projektu, którego celem jest stworzenie narzędzi i ekosystemów, w których sztuczna inteligencja jest w stanie kompleksowo odpowiadać na zapotrzebowania charakterystyczne dla polskiej przestrzeni naukowej oraz biznesowej.

Choć istniejące już rozwiązania, czy to od OpenAI (ChatGPT), Google (Gemini) czy Anthropic (Claude), potrafią (lub za chwilę będą potrafić) radzić sobie z polskim językiem, z uwagi na to, że ich DNA jest zagraniczne, pewne konteksty kulturowe oraz niepisane zasady funkcjonujące w społeczeństwie, mogą im umykać.

Bielik, jako model od początku budowany i trenowany na polskich danych, z polskim środowiskiem naukowym i biznesowym w centrum uwagi, ma tego typu bolączek być pozbawiony. Jak przyznawali twórcy Bielika (i co potwierdzili nam w poniższej rozmowie), celem narzędzia nie jest jednak rywalizowanie ze wspomnianymi rozwiązaniami gigantów.

Orzeł z ciałem częściowo złożonym z obwodów elektronicznych na tle futurystycznych wieżowców i cyfrowych połączeń. Obraz symbolizuje polski model Bielik AI — Fot. obraz wygenerowany za pomocą DALL-E

Bielik nie jest i nie będzie działał jak ChatGPT – choć nowa wersja z naturalną rozmową radzić ma sobie znacznie lepiej – a jako produkt przeznaczony jest do całkowicie innych celów. Praca z danymi czy tekstami naukowymi wymaga odpowiedniego podejścia, aby jej efekty spełniały pokładane w nich nadzieje… I na to, wraz z kolejną wersją Bielika, liczą jego twórcy.

O szczegółach dotyczących zmian oraz tego, co czeka polski model językowy, dowiecie się czytając rozmowę, którą redakcja Android.com.pl miała okazję niedawno z nimi przeprowadzić.

Bielik 2.2 – najważniejsze zmiany i polskość projektu. Rozmowa z twórcami

Łukasz Gołąbiowski, Android.com.pl: Często podkreślacie polskość waszego projektu – dlaczego dla firm bądź środowiska naukowego powinno to mieć znaczenie? Jaką przewagę nad konkurencją ta „polskość” modelu daje, w świecie, w którym technologia coraz rzadziej ma narodowość?

Sebastian Kondracki & SpeakLeash Team: W dzisiejszym, bardzo konkurencyjnym środowisku biznesowym, poprawny i prosty język ma ogromne znaczenie. Szczególnie istotne jest to w obsłudze klienta, gdzie większość banków i ubezpieczalni inwestuje w tzw. prosty język, który jest spersonalizowany do odbiorcy. Podobne podejście obserwujemy w e-commerce. Oczywiście, do realizacji takich zadań możemy wykorzystać np. GPT-4, jednak nie wszystkie firmy mogą przetwarzać dane klientów przez zamknięte modele w chmurze, ze względu na wymogi związane z tajemnicą bankową, adwokacką czy lekarską. W takich przypadkach potrzebujemy modelu open source, który możemy uruchomić na własnej infrastrukturze.

W tym kontekście okazuje się, że mniejsze modele, tzw. SLM (small language model do 10 miliardów parametrów) lub inne kompaktowe modele, mają trudności z generowaniem tekstów w języku polskim. W takiej sytuacji na scenę wkracza model Bielik, który doskonale radzi sobie z generowaniem polskich tekstów, odpowiedzi dla klientów itd. Bielik potrafi również operować polskimi idiomami i powiedzeniami, co sprawia, że analiza opinii, pism czy komentarzy w języku polskim wychodzi mu lepiej niż w przypadku jakiegokolwiek innego modelu dostępnego na rynku.

Ostatnim elementem, nad którym pracujemy, są gwara, potrawy regionalne, tradycje, zwyczaje itd. Warto zauważyć, że coraz więcej firm, zwłaszcza tych mniejszych, zaczyna wracać do korzeni i potrzebuje modelu, który będzie w stanie wygenerować doskonały opis do menu regionalnej restauracji.

Polskość czy też lokalność LLM nabiera ogromnego znaczenia, aby móc na własnej infrastrukturze uruchomić model, który doskonale mówi po polsku, zna niuanse językowe oraz rozumie naszą tradycję. I nie chodzi tu tylko o patriotyzm (chociaż warto zarchiwizować nasze gwary i dialekty), ale również o biznes.

Bielik siedzący na ziemi w lesie, w otoczeniu wrzosów. — Fot. Karl Adami / WikiCommons CC BY-SA 4.0

ŁG: Belik 2.2, nowa wersja modelu, przeszedł sporo zmian względem poprzednich iteracji. Choć to bardziej ewolucja, niż rewolucja, kilka rozszerzeń i modyfikacji powinno mocno zmienić funkcjonowanie całego rozwiązania. W których obszarach te różnice będą najbardziej zauważalne?

SK&SLT: Warto zwrócić uwagę na trzy obszary. Pierwsza wersja Bielika już wtedy oferowała ogromne możliwości w zakresie generowania bardzo naturalnego tekstu i wnioskowania. Jednak gdy prosiliśmy model o zwrócenie wyników w określonym formacie, np. jako XML, JSON czy HTML, wraz z odpowiednimi wskazówkami dotyczącymi struktury, Bielik v1.0 czasami się mylił, dostarczając błędną strukturę odpowiedzi, mimo że sama merytoryka była poprawna.

W wersji 2 Bielik potrafi generować odpowiedzi, które są nie tylko poprawne merytorycznie, ale również zgodne z wymaganym formatem. Dzięki temu Bielik v2 może być częścią większych systemów w firmach, przygotowując odpowiedzi zgodne np. z API danego systemu.

Idąc dalej – w obszarze wnioskowania i wyjaśnialności Bielik v2 również poczynił ogromny postęp. Nawet gdy analizuje teksty zawierające niuanse językowe, idiomy, a także dużą dawkę sarkazmu i ironii, potrafi dokładnie je przeanalizować i wyjaśnić swoje decyzje.

Na koniec, warto wspomnieć, że Bielik v1 nie był pierwotnie projektowany do prowadzenia rozmów, ponieważ miał jedynie 7 miliardów parametrów (co jest typowe dla modeli SLM). Mimo to okazał się bardzo skuteczny w prowadzeniu czatów. W wersji 2.2 ten aspekt został znacznie rozwinięty. Muszę przyznać, że rozmowa z Bielikiem v2.2, jego kreatywność oraz zdolność do odgrywania ról są naprawdę imponujące.

Bielik to nie ChatGPT

Futurystyczny cybernetyczny bielik stojący w zaawansowanym technologicznie laboratorium. — Fot. obraz wygenerowany za pomocą DALL-E

ŁG: Przy poprzednich, publicznych wersjach, spadło na was sporo krytyki związanej z zasobem wiedzy Bielika i tym, jak wypadał w zestawieniu z ChatGPT. Tłumaczyliście wówczas, że tego typu porównania są nie na miejscu, a narzędzie służy całkowicie innym celom niż to, do czego szersza widownia zaczęła je wykorzystywać.

Mimo budowanej narracji i wyjaśnień – wiecie, że wiele osób nadal będzie na Bielika patrzyło w kontekście tego, jak wypada w porównaniu z modelem OpenAI… Jesteście na to gotowi? A może jesteście pewnie, że nowa wersja w tego typu porównaniach wypadnie o wiele lepiej niż kiedyś?

SK&SLT: Po pierwsze, do tej krytyki w pewnym stopniu przyczynili się sami dziennikarze, którzy nazywali nas „polskim ChatGPT”, „nadwiślańskim GPT”, czy „polskim OpenAI”, ponieważ takie tytuły lepiej się klikają.

Po drugie, warto zauważyć, że spora część „szerszej widowni” postrzega każdy duży model językowy jako ogromną bazę danych, zawierającą wszystkie informacje na świecie. Oczekują, że model będzie pełnił funkcję kalkulatora (np. „ile jest 2+2”), kalendarza (np. „jaki mamy dziś dzień”) czy też dostarczy informacji na temat wydarzeń sprzed kilku dni, jak np. „kto został mistrzem świata na zawodach dwa dni temu”.

Czy jesteśmy gotowi na dalsze porównania? Cóż, cały czas edukujemy użytkowników na temat właściwego wykorzystania dużych modeli językowych, wyjaśniając różnice między LLM, SLM, chatbotami i agentami. Stworzyliśmy również arenę, gdzie każdy może wypróbować różne modele, porównać wyniki, np. Bielika z GPT-4o-mini, Mistralem czy Llamą.

Ta arena dostarcza nam ogromnej ilości danych badawczych, a użytkownicy mogą na własne oczy zobaczyć, że wiele modeli, nie tylko Bielik, nie zawsze zna najnowsze informacje, jak np. kto jest obecnym marszałkiem Sejmu. Jednak gdy prosimy o stworzenie tekstu lub bajki w stylu polskiego pisarza, Bielik wypada najlepiej.

W październiku planujemy również opublikować obszerny raport, w którym ponad 300 firm odpowiedziało w ankiecie, do jakich zadań wykorzystuje SLM, LLM oraz jakie modele. My z kolei pokażemy mierzalne wyniki, jak Bielik radzi sobie w tych konkretnych zadaniach.

ŁG: Przy nowym modelu, zapowiadacie dostępność także tzw. wersji skwantyzowanej, która powstała z myślą o urządzeniach o nieco mniejszych możliwościach. Czym ona tak naprawdę będzie różniła się od wariantu „standardowego” i w jakich scenariuszach może realnie się przydać?

SK&SLT: Przede wszystkim, wymagają one mniejszej ilości pamięci do przechowywania danych, co jest wynikiem tego, że modele te zajmują mniej miejsca na dysku. Co więcej, ich zapotrzebowanie na dużą moc obliczeniową jest mniejsze, co pozwala na efektywniejsze działanie na mniej wydajnych kartach graficznych, choć jest to rozwiązanie awaryjne.

Inną zaletą jest przyspieszenie działania modeli, choć warto zauważyć, że im większa kwantyzacja, tym większe ryzyko, że model będzie działał mniej efektywnie. Powstanie wiele wersji skwantyzowanych, aby zaspokoić potrzeby użytkowników korzystających z różnorodnych narzędzi, takich jak Ollama czy LM studio. Dostępne będą też specjalne wersje przystosowane do vLLM, które mogą być szczególnie atrakcyjne, a które oferują wsparcie sprzętowe takich linii jak Ada Lovelace czy Hopper.

ŁG: Premiera nowej wersji to nie koniec waszych prac przy Bieliku. Co czeka go dalej, co chcecie osiągnąć w wersji 3.0… i kiedy realnie możemy się jej spodziewać?

SK&SLT: Chcemy, aby wersja 3.0 nie odbiegała od światowej czołówki. Praca nad wersjami 1.0 i 2.0 pozwoliła nam zbudować świetny zespół trenujący, osiągnąć maksymalne prędkości dzięki współpracy z Cyfronetem oraz stworzyć jedną z największych niezależnych społeczności open source w Europie.

Wersja 3.0 może nie będzie jednym modelem, ale raczej zestawem modeli (podobnie jak u OpenAI, Mistrala czy Mety). Po drugie, planujemy wyjść poza sam tekst – czas na multimodalność. Kiedy można spodziewać się wersji 3.0? Nasze plany są bardzo ambitne, więc nie możemy podać dokładnej daty. Jednak, jak już nas poznaliście, premiera wersji 1.0 miała miejsce w kwietniu, a wersji 2.0 w sierpniu/wrześniu.

Dlatego warto spodziewać się premiery 3.0 pod koniec 2024 roku lub na początku 2025 – chcemy zakończyć rok z przytupem lub rozpocząć nowy na wysokim poziomie.

Bielisk AI, zespół SpeakLeash. Grupa ludzi stojących przed dużymi komputerami w nowoczesnym pomieszczeniu technicznym. — **Część zespołu SpeakLeash z pracownikami AGH Cyfronet.** Fot. SpeakLeash / materiały prasowe

ŁG: Jak wygląda obecnie wasza współpraca z podmiotami rządowymi/państwowymi? Czy wsparcie z tej strony w ostatnim czasie się zmieniło/zwiększyło? Chcecie budować scenę AI w Polsce, ale wiadomo, że w pojedynkę tego nie da się zrobić, a Ministerstwo Cyfryzacji wielokrotnie podkreślało, że ten obszar jest dla nich jednym z priorytetów.

SK&SLT: Powiem (tu w swoim imieniu mówi Sebastian Kondracki – jeden z założycieli Speakleash – dop. red.), że scenie AI w Polsce Spichlerz, Bielik i Cyfronet nadały znaczące przyspieszenie w obszarze LLM. Posiadamy własny ogromny zestaw danych na poziomie takich projektów jak The Pile (EleutherIA), Roots (Big Science) czy RedPajama, a także własne benchmarki, w tym arenę, MT-bench i EQ-bench.

Mamy również otwarty framework do trenowania LLM oraz własny model. Żaden kraj, oprócz Francji, nie dysponuje tak rozbudowaną infrastrukturą ekosystemu do budowy LLM od podstaw.

Naszym celem jest teraz dorównać liderom w Europie i zrobić to bardzo szybko, we współpracy nie tylko z Ministerstwem Cyfryzacji, ale przede wszystkim z polskim biznesem. O szczegółach nie możemy jeszcze mówić, ale po premierze Bielika v2, a bardziej po jego użytkowej weryfikacji, ruszą oficjalnie kolejne ciekawe inicjatywy na skalę europejską.

ŁG: Dziękuję za rozmowę i trzymam kciuki za rozwój projektu.

SK&SLT: Dziękujemy.

Zdjęcie otwierające: SpeakLeash / materiały prasowe

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.