Kobieta prezentująca w nowoczesnym wnętrzu z białymi fotelami i dużym ekranem z napisem "GPT-40".
LINKI AFILIACYJNE

Wszystko, co ogłosiło OpenAI. Oto GPT-4o, konwersacja głosowa na żywo, rozpoznawanie emocji i inne fenomenalne nowości

5 minut czytania
Komentarze

OpenAI w końcu odkryło wszystkie karty – za nami konferencja Spring Update, na której pokazane zostały najnowsze ulepszenia dotyczące ChatGPT oraz nowy model – GPT-4-o. Największe wrażenie robi możliwość rozmawiania w czasie rzeczywistym oraz rozpoznawanie emocji przez obiektyw aparatu – funkcja, którą Sam Altman określił jako „magiczną”.

Konferencja OpenAI Spring Update

Smartfon trzymany w dłoni z logo OpenAI na ekranie na tle rozmytych kolorowych linii kodu.
Fot. TY Lim / Shutterstock

Każda konferencja gigantów technologicznych, takich jak OpenAI, stanowi znaczący moment dla technologii i sztucznej inteligencji. Nowości wiodących firm AI przyciągają uwagę specjalistów branży, naukowców oraz technologicznych entuzjastów z całego świata. Tym razem na spotkaniu zatytułowanym OpenAI Spring Update, które odbyło się 13 maja 2024 roku o 19:00 polskiego czasu, firma skupiła się na pokazaniu najnowszych osiągnięć i aktualizacji związanych z ChatGPT.

Jednym z głównych punktów programu była prezentacja GPT-4o i nowych możliwości ChatGPT.

Nowy model – GPT-4o

Kobieta stoi i gestykuluje w nowoczesnym salonie z roślinami i stylowymi meblami. GPT4-o OpenAI
Prezentacja nowego modelu GPT-4o. Fot. OpenAI / YouTube / zrzut ekranu

OpenAI wprowadza nowy model o nazwie GPT-4o, który zostanie udostępniony wszystkim, w tym użytkownikom bezpłatnej wersji ChatGPT. Podczas demonstracji zaprezentowano aplikację komputerową na komputery Mac, która zawiera tryb głosowy dostępny obecnie tylko na urządzeniach mobilnych. Nowość pojawi się w ciągu najbliższych kilku tygodni.

CTO OpenAI Mira Murati, która prowadziła konferencję, zaznaczyła, że ważną częścią misji firmy jest umożliwienie bezpłatnego korzystania z zaawansowanych narzędzi AI, w tym wyeliminowanie konieczności rejestrowania się w ChatGPT.

Rozmowy z ChatGPT na żywo

Jednym z kluczowych ulepszeń w GPT-4o jest funkcja przetwarzania mowy na żywo. Ten model jest zdolny do bezpośredniej konwersji dźwięków na odpowiedzi, pomijając etap transkrypcji. Podczas prezentacji tej technologii, pracownik OpenAI demonstrował, jak model radzi sobie z analizą oddechu rozmówcy. ChatGPT w czasie rzeczywistym udzielał wskazówek, co zrobić, aby poprawić techniki oddychania. Co więcej, model pozwala na przerywanie mu w trakcie wypowiedzi, umożliwiając dynamiczną interakcję na żywo.

Trzy osoby siedzą w stylowej przestrzeni biurowej, dwie z nich oglądają ekran smartphone'a trzymanego przez mężczyznę.
Fot. OpenAI / YouTube / zrzut ekranu

W kolejnym eksperymencie z tą funkcją zaprezentowano możliwość nadawania głosowi ChatGPT różnych cech. Podczas testów proszono model o stworzenie opowieści z różnorodnymi modulacjami głosu: mechanicznym, śpiewnym oraz pełnym dramatyzmu. Szczególną reakcję publiczności wywołał robotyczny ton chatbota.

ChatGPT zrobi za ciebie zadanie domowe

Nowa funkcja GPT4-o, umożliwiająca „widzenie”, stanowi znaczący postęp w zakresie interakcji między sztuczną inteligencją a użytkownikami. Ta zdolność pozwala programowi dostrzegać otoczenie za pomocą kamery w telefonie. To funkcja, która naprawdę wydaje się przełomowa.

Trójka osób siedzi przy okrągłym stole w nowoczesnym wnętrzu, jedna osoba pokazuje smartfona z matematycznym problemem na ekranie.
ChatGPT rozwiązuje równanie, dzięki możliwości odczytywania obrazu z obiektywu aparatu. Fot. OpenAI / YouTube / zrzut ekranu

Podczas prezentacji demonstracyjnej, zespół OpenAI wykorzystał tę możliwość, pokazując ChatGPT równanie zapisane na kartce. Zamiast bezpośredniej odpowiedzi, sztuczna inteligencja podjęła się omówienia sposobu rozwiązania problemu krok po kroku. Przedstawiciel firmy rozmawiał z nią tak naturalnie jak z koleżanką.

W kulminacyjnym momencie demonstracji, gdy kamera wciąż była aktywna, ChatGPT zauważył strój prezentera i z entuzjazmem wyraził swój podziw, mówiąc:

Wow, podoba mi się ten strój, który masz na sobie!

ChatGPT podczas rozmowy na konferencji

To nie wszystko – używając niezwykle naturalnego sposobu konwersacji, ChatGPT był w stanie przeglądać pisany kod programistyczny i analizować go. Opisywał także to, co widzi na wykresie, łącznie z wykrywaniem potencjalnych problemów.

Wykres temperatury przedstawiający średnią, minimalną i maksymalną temperaturę każdego miesiąca w roku 2018, wyświetlany w interfejsie Jupyter Notebook.
Fot. OpenAI / YouTube / zrzut ekranu

Tłumaczenie rozmowy na żywo

Podczas demonstracji, zespół OpenAI zaprezentował nową funkcję ChatGPT – narzędzie do tłumaczeń na żywo. Program, rozpoznając zdania w języku włoskim wypowiedziane przez Mirę Murati, przekształcał je na bieżąco na język angielski. Następnie reagował od razu, tłumacząc odpowiedzi po angielsku z powrotem na włoski. Ta innowacja z pewnością zrewolucjonizuje podróżowanie, ułatwiając komunikację międzykulturową i eliminując bariery językowe.

ChatGPT rozpoznaje emocje

Trzy osoby w nowoczesnym wnętrzu używają smartfona, aby rozmawiać z mężczyzną na wideo połączeniu wyświetlanym na dużym ekranie.
ChatGPT umie odczytywać emocje, obserwując cię przez obiektyw aparatu. Fot. OpenAI / YouTube / zrzut ekranu

I na koniec coś, co bez wątpienia przypominało film „Her” i inteligentną asystentkę głosową, w której zakochał się główny bohater. Na konferencji pokazano, jak GPT-4o rozpoznaje i nazywa emocje na podstawie obserwacji twarzy przez kamerę. Podczas konferencji przedstawiono uśmiechniętą twarz jednego z przedstawicieli OpenAI (moment uchwycony na zdjęciu powyżej), na co sztuczna inteligencja zareagowała pytaniem:

Czy chcesz podzielić się powodem swojego dobrego nastroju?

ChatGPT podczas rozmowy na konferencji

Sam Altman określił tę technologię jako magiczną, co doskonale oddaje jej potencjał. Asystent głosowy, którego działanie mogliśmy obserwować podczas prezentacji, zapowiada rewolucję w interakcjach z AI, przechodząc od tradycyjnych tekstowych metod komunikacji do bardziej bezpośrednich i intuicyjnych.

Zgodnie z zapowiedziami, wszystkie nowe funkcje będą stopniowo wprowadzane w ciągu najbliższych tygodni, otwierając nowy rozdział w sposobie interakcji z technologią sztucznej inteligencji.

Źródło: YouTube, oprac. własne. Zdjęcie otwierające: OpenAI / YouTube / zrzut ekranu

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.

Motyw