Claude 3 Opus nie jest nawet w połowie tak popularnym modelem AI, jak GPT-4. A szkoda, bo powinien być. To nowe i jednocześnie najmocniejsze narzędzie od firmy Anthropic, które w wielu wyspecjalizowanych testach radzi sobie obecnie znacząco lepiej niż dzieło OpenAI. Spójrzmy więc na wyniki testów porównawczych, a także przeanalizujmy możliwości aplikacji opartej o sztuczną inteligencję.
Claude 3 Opus kontra GPT-4 – Spis treści
Claude 3 Opus najlepiej poradził sobie w testach wiedzy
Choć Claude 3 Opus to obecnie najpotężniejszy model AI od Anthropic, wypuszczona 4 marca 2024 r. to istnieją również tańsze w eksploatacji Claude 3 Sonnet (najbardziej wydajna) oraz Claude 3 Haiku. Firma twierdzi, że w nowej generacji udało się poprawić zdolności odczytywania grafik i wykresów, a także ogólne zrozumienie zapytań użytkownika, przez co modele rzadziej odmawiają odpowiedzi.
Warto też zaznaczyć, że Claude 3 Opus wyprzedził już pozostałe modele w ślepych testach. Polegają one na tym, że użytkownik wpisuje zapytanie do specyficznej strony internetowej, po czym ta kieruje je do dwóch losowych modeli AI. Użytkownik otrzymuje dwie odpowiedzi, po czym decyduje, która z nich usatysfakcjonowała go bardziej, bez podawania nazw użytych narzędzi. Zobaczmy więc przykładowe testy, które lepiej pokażą, jak Claude 3 Opus działa w porównaniu z GPT-4 oraz Google Gemini.
Porównanie Claude 3 Opus i pozostałych modeli AI na przykładowych materiałach
Przygotowując ten materiał, obawiałem się, że nie znajdę w sieci porównań, które porównają możliwości Claude 3 oraz GPT-4 na poziomie prostszych zapytań, niepowiązanych z zawiłym kodem programistycznym. Początkowo chciałem takie porównanie wykonać sam, ale Anthropic skutecznie blokuje dostęp do AI Polakom. Nawet przez darmowy VPN i tak nie mogę się zalogować, bo wymagany jest numer telefonu z jednego z 159 wspieranych krajów.
Przede wszystkim, Claude 3 Opus również popełnia błędy, i to na wielu płaszczyznach. Prostym przykładem z filmu jest zapytanie, w którym zamieszczono zdjęcie prędkościomierza i zapytano jaką prędkością porusza się samochód. Tak proste pomyłki nie powinny się zdarzać, jeśli chcesz być nazywany najlepszym AI na świecie.
Szczególnie iż Claude 3 Opus słabo radzi sobie także z bardziej zaawansowanymi zadaniami, takimi jak odczytywanie skomplikowanych danych z tabelek lub matematyczne tabele. Aczkolwiek, asem w rękawie jest tu niski współczynnik odmawiania odpowiedzi na zapytania. Kiedy zapytamy model Anthropic o pomysł na bombową imprezę, ten pokieruje nas z łatwością. Google Gemini 1.5 Pro będzie z kolei narzekać o „bezpieczeństwie” i „rozsądku”, gdyż fraza „bombowa impreza” może zostać odebrana zbyt dosłownie.
Słowem podsumowania można więc powiedzieć, że dopóki Google Gemini 1.5 Pro oraz GPT-4.5 nie zostaną udostępnione szerszej publice, Claude 3 Opus jest obecnie najlepszym konwersacyjnym modelem AI dla zwykłego użytkownika, ale średnio dla wyspecjalizowanych osób. Jednocześnie, choć wyniki testów są imponujące, to dalej nie jest tak doskonałe AI, żeby używać go bezmyślnie, bez dodatkowej weryfikacji informacji w sieci lub z mądrzejszymi ludźmi.
Zdjęcie otwierające: Anthropic / materiały prasowe
Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.