Claude 3 Opus przegonił model GPT-4. OpenAI w końcu ma poważną konkurencję

31 marca 2024 4 minuty czytania

Claude 3 Opus nie jest nawet w połowie tak popularnym modelem AI, jak GPT-4. A szkoda, bo powinien być. To nowe i jednocześnie najmocniejsze narzędzie od firmy Anthropic, które w wielu wyspecjalizowanych testach radzi sobie obecnie znacząco lepiej niż dzieło OpenAI. Spójrzmy więc na wyniki testów porównawczych, a także przeanalizujmy możliwości aplikacji opartej o sztuczną inteligencję.

Claude 3 Opus kontra GPT-4 – Spis treści

Claude 3 Opus najlepiej poradził sobie w testach wiedzy

**Claude 3 Opus** wykręcił najlepsze wyniki w 10 testach, jakim są poddawane inne modele AI. W przypadku pozostałych modeli Anthropic dopuszcza się manipulacji. Choć Claude 3 Sonnet i Claude 3 Haiku są postawione obok *Opus,* nie osiągnęły lepszych wyników od *GPT-4* we wszystkich testach. Fot. Anthropic / materiały prasowe

Choć Claude 3 Opus to obecnie najpotężniejszy model AI od Anthropic, wypuszczona 4 marca 2024 r. to istnieją również tańsze w eksploatacji Claude 3 Sonnet (najbardziej wydajna) oraz Claude 3 Haiku. Firma twierdzi, że w nowej generacji udało się poprawić zdolności odczytywania grafik i wykresów, a także ogólne zrozumienie zapytań użytkownika, przez co modele rzadziej odmawiają odpowiedzi.

Tabela porównawcza osiągnięć Claude 3 Opus w różnych testach matematycznych i naukowych dla modeli AI: Claude 3 Opus, Claude 3 Sonnet, Claude 3 Haiku, GPT-4V, Gemini 1.0 Ultra oraz Gemini 1.0 Pro. Wartości procentowe w kolorze czerwonym i zielonym przedstawiają wyniki dla kategorii jak Math & reasoning, Document visual Q&A, Math, Science diagrams oraz Chart Q&A. — **W testach wizyjnych wyniki są już różne. Okazuje się, że najlepiej tu działa… Google Gemini 1.0 Ultra.** Fot. Anthropic / materiały prasowe

Warto też zaznaczyć, że Claude 3 Opus wyprzedził już pozostałe modele w ślepych testach. Polegają one na tym, że użytkownik wpisuje zapytanie do specyficznej strony internetowej, po czym ta kieruje je do dwóch losowych modeli AI. Użytkownik otrzymuje dwie odpowiedzi, po czym decyduje, która z nich usatysfakcjonowała go bardziej, bez podawania nazw użytych narzędzi. Zobaczmy więc przykładowe testy, które lepiej pokażą, jak Claude 3 Opus działa w porównaniu z GPT-4 oraz Google Gemini.

Porównanie Claude 3 Opus i pozostałych modeli AI na przykładowych materiałach

Materiał z kanału AI Explained, porównujący Claude 3 i GPT-4.

Przygotowując ten materiał, obawiałem się, że nie znajdę w sieci porównań, które porównają możliwości Claude 3 oraz GPT-4 na poziomie prostszych zapytań, niepowiązanych z zawiłym kodem programistycznym. Początkowo chciałem takie porównanie wykonać sam, ale Anthropic skutecznie blokuje dostęp do AI Polakom. Nawet przez darmowy VPN i tak nie mogę się zalogować, bo wymagany jest numer telefonu z jednego z 159 wspieranych krajów.

Przede wszystkim, Claude 3 Opus również popełnia błędy, i to na wielu płaszczyznach. Prostym przykładem z filmu jest zapytanie, w którym zamieszczono zdjęcie prędkościomierza i zapytano jaką prędkością porusza się samochód. Tak proste pomyłki nie powinny się zdarzać, jeśli chcesz być nazywany najlepszym AI na świecie.

**Na grafice mamy prędkość 4 mph, ale Claude 3 Opus twierdzi, że samochód jedzie z prędkością 40 mph. Co ciekawe, Google Gemini 1.5 Pro poradziło tu sobie doskonale.** Fot. AI Explained / YouTube

Szczególnie iż Claude 3 Opus słabo radzi sobie także z bardziej zaawansowanymi zadaniami, takimi jak odczytywanie skomplikowanych danych z tabelek lub matematyczne tabele. Aczkolwiek, asem w rękawie jest tu niski współczynnik odmawiania odpowiedzi na zapytania. Kiedy zapytamy model Anthropic o pomysł na bombową imprezę, ten pokieruje nas z łatwością. Google Gemini 1.5 Pro będzie z kolei narzekać o „bezpieczeństwie” i „rozsądku”, gdyż fraza „bombowa impreza” może zostać odebrana zbyt dosłownie.

Słowem podsumowania można więc powiedzieć, że dopóki Google Gemini 1.5 Pro oraz GPT-4.5 nie zostaną udostępnione szerszej publice, Claude 3 Opus jest obecnie najlepszym konwersacyjnym modelem AI dla zwykłego użytkownika, ale średnio dla wyspecjalizowanych osób. Jednocześnie, choć wyniki testów są imponujące, to dalej nie jest tak doskonałe AI, żeby używać go bezmyślnie, bez dodatkowej weryfikacji informacji w sieci lub z mądrzejszymi ludźmi.

Zdjęcie otwierające: Anthropic / materiały prasowe

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.