chatgpt

ChatGPT zyska oczy i uszy. A OpenAI obiecało coś jeszcze

4 minuty czytania
Komentarze

W ciągu najbliższych dwóch tygodni użytkownicy ChatGPT Plus będą mogli prowadzić rozmowy głosowe za pomocą ChatGPT (iOS i Android) oraz dołączać obrazy do rozmów (na wszystkich platformach).

Nowe funkcje mają pozwolić na interakcję z chatbotem w bardziej intuicyjny sposób — poprzez rozmowę lub pokazywanie, o co chodzi użytkownikowi.

ChatGPT i funkcje głosowe

W kwestii dźwięku można poprosić o wymyślenie bajki na dobranoc, opinie polityczne czy tematy rozmów z kolegami z pracy. Albo po prostu porozmawiać — rozmowa nie będzie monologiem, będzie prowadzona w obie strony.

chatgpt
fot. Depositphotos/iwatchwater

Aby rozpocząć korzystanie z głosu, trzeba będzie przejść do Ustawień w aplikacji mobilnej, wybrać „Nowe funkcje” i włączyć rozmowy głosowe. Będzie też możliwość wybrania preferowanego głosu spośród pięciu różnych głosów.

Funkcja głosowa będzie obsługiwana przez nowy model zamiany tekstu na mowę, umożliwiający generowanie dźwięku podobnego do ludzkiego na podstawie samego tekstu i kilku sekund próbki mowy. Przy tworzeniu każdego z głosów OpenAI współpracował z profesjonalnymi aktorami głosowymi. Użyto również Whisper, czyli systemu rozpoznawania mowy typu open source, do transkrypcji wypowiadanych słów na tekst.

Jak podkreśla OpenAi, nowa technologia umożliwiająca tworzenie realistycznego, syntetycznego głosu z zaledwie kilku sekund prawdziwej mowy otwiera drzwi do wielu kreatywnych zastosowań, ale też nowych zagrożeń, np. podszywania się pod osoby publiczne lub popełnianie oszustw. Właśnie dlatego używana ma być tylko do czatu głosowego.

ChatGPT i funkcje graficzne

W jaki sposób można będzie wykorzystać nowe funkcje graficzne ChatGPT? Wystarczy na przykład zrobić zdjęcie jakiegoś miejsca podczas podróży i zapytać AI, co jest w nim ciekawego. Albo cyknąć zdjęcie wnętrza lodówki, aby dostać przepis, co można zrobić z jej zawartości. Albo cyknąć treść zadania domowego, aby chatbot je rozwiązał.

Android.com.pl/Jolanta Szczepaniak

Aby rozpocząć korzystanie z tej funkcji, w aplikacji trzeba będzie dotknąć przycisku zdjęcia, aby przechwycić lub wybrać obraz (w iOS lub Android najpierw trzeba będzie wybrać przycisk plusa). Rozumienie obrazu jest obsługiwane przez modele GPT-3.5 i GPT-4, które wykorzystują umiejętności rozumowania językowego odnośnie do szerokiej gamy obrazów, takich jak fotografie, zrzuty ekranu i dokumenty zawierające zarówno tekst, jak i obrazy.

Modele oparte na wizji stwarzają nowe wyzwania, jednak OpenAI dąży do tego, aby funkcja ta była zarówno użyteczna, jak i bezpieczna. Firma wykorzystuje tu doświadczenia wyniesione za współpracy z Be My Eyes, bezpłatną aplikacją mobilną dla osób niewidomych i słabowidzących. Podjęła też działania, aby znacznie ograniczyć zdolność ChatGPT do analizowania i składania bezpośrednich oświadczeń na temat ludzi, ponieważ system powinien szanować prywatność osób. Niemniej użytkownicy mogą polegać na ChatGPT w przypadku specjalistycznych tematów, na przykład w dziedzinach takich jak badania.

OpenAI wspomina, że model jest biegły w transkrypcji tekstu w języku angielskim, ale słabo radzi sobie z niektórymi innymi językami, zwłaszcza tymi, w których nie występuje alfabet łaciński. Dlatego odradza się użytkownikom nieanglojęzycznym korzystanie z ChatGPT w tym celu.

Strategia OpenAI

Producent twierdzi, że stopniowe udostępnianie nowych narzędzi pozwoli z czasem wprowadzać ulepszenia i ograniczyć ryzyko, a jednocześnie przygotować wszystkich na wydajniejsze systemy w przyszłości. Strategia ta staje się jeszcze ważniejsza w przypadku zaawansowanych modeli wykorzystujących głos i wzrok.

Nowe funkcje głosowe i graficzne w ChatGPT będą wdrażane w ciągu najbliższych dwóch tygodni dla użytkowników Plus i Enterprise. Funkcje głosowe będą dostępne na iOS i Androidzie, a funkcje graficzne będą dostępne na wszystkich platformach.

Dodatkowo przypomnimy tylko, że w przypadku zgubienia lub kradzieży smartfona, zawsze dobrze jest mieć włączoną funkcję lokalizacji telefonu, aby łatwo namierzyć jego położenie.

Źródło: OpenAI

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.

Motyw