Whisper AI – jak zainstalować i używać? Zrób polskie napisy do filmów w kilka chwil

16 lipca 2023 7 minut czytania

Whisper AI to darmowe narzędzie od Open AI (tak, tej korporacji od ChatGPT), które sprawia, że już nigdy nie zmarnujecie czasu na napisy do filmów. Tego rozwiązania używają obecnie największe kanały na YouTube, podcasty, czy też TikTokerzy. Pokażę więc Wam jak sprawnie przygotować Whisper AI do codziennej pracy tak, aby Wasi odbiorcy zawsze mogli włączyć napisy do filmu w wielu językach.

Szybkie napisy do filmu z Whisper AI — spis treści

Przygotowujemy się do instalacji Whisper AI. Co będzie nam potrzebne?

Na początek, musimy zainstalować na komputerze dwa programy. Python 3.9.9 (koniecznie ta wersja), NVIDIA CUDA 11.6, a także kodek FFmpeg 6.0. Choć ten drugi jest opcjonalny, to sprawia, że do obliczeń wykonywanych przez sztuczną inteligencję będzie też wykorzystywana nasza karta graficzna.

Jeżeli nie macie karty graficznej od Zielonych, możecie instalację tego komponentu pominąć. Jednakże, wynik zastosowania tego oprogramowania będzie prosty. Nasze napisy do filmów zostaną wygenerowane jeszcze szybciej.

Poniżej znajdziecie bezpośrednie linki do instalatorów tych aplikacji.

Python 3.9.9 – instalacja

Najważniejsza sprawa — zaznaczamy opcję Add Python 3.9 to PATH. Jest to kluczowe dla dalszego procesu instalacji i pracy z Whisper AI. Poza tym, instalujemy Python 3.9.9 i czekamy na komunikat o ukończeniu operacji.

NVIDIA CUDA 11.6 – instalacja

Przede wszystkim, trzeba chwilkę poczekać. To jest pakiet komponentów, który waży ok. 2,4 GB. Odpalamy instalator i wypakowujemy niezbędne elementy.

Co ważne, nie musimy instalować wszystkiego. Napisy do filmów wymagają tylko komponentu CUDA. Zaznaczamy więc instalację Niestandardową i wybieramy elementy tak, jak zaznaczyłem to na poniższej grafice. Potwierdzamy kontynuację instalacji i czekamy, aż proces zostanie ukończony.

FFmpeg 6.0 – instalacja

Pobrane archiwum wypakowujemy w dowolnym folderze. Interesują nas pliki znajdujące się w podfolderze „bin”: ffmpeg.exe, ffplay.exe, ffprobe.exe. Wszystkie trzy kopiujemy do folderu C:/PATH. Oczywiście, jeżeli system Windows macie zainstalowany na innym dysku, tworzycie folder PATH w partycji z inną literką.

Jeżeli pamiętacie moje przygody z automatycznym odbieraniem gier w Epic Games Store, to powinniście wiedzieć, gdzie zmierzamy — do zmiennych środowiskowych. W tym celu, z poziomu wyszukiwarki Menu Start, odpalamy systemowy konfigurator o nazwie Edytuj zmienne środowiskowe systemu.

Klikamy Zmienne środowiskowe, zaznaczamy Path i klikamy Edytuj. W następnym oknie wciskamy Nowy i dodajemy ścieżkę C:/PATH lub tą, którą Wy utworzyliście, zgodnie z miejscem instalacji Waszego systemu operacyjnego. Potwierdzamy przez przycisk OK i zamykamy wszystkie okna. FFmpeg 6.0 został prawidłowo zainstalowany.

Whisper AI — instalujemy program, który przygotuje za nas napisy do filmów

Jesteśmy już w pełni przygotowani, by zainstalować Whisper AI. Przenosimy się więc do Terminala. W tym celu, klikamy prawym przyciskiem myszy na pulpicie i wybieramy opcję Otwórz w Terminalu. Ukaże się naszym oczom Wiersz Poleceń.

PyTorch 2.0.1 – instalacja

Zanim jeszcze zainstalujemy Whisper AI, musimy pobrać jeszcze komponent PyTorch 2.0.1, wymagany do działania programu. Jeżeli posiadasz kartę graficzną NVIDIA i chcesz przygotowywać z nią napisy do filmów, wpisz to polecenie do Terminala:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

Jeżeli natomiast chcesz korzystać wyłącznie z mocy procesora (CPU), wpisz alternatywne polecenie:

pip3 install torch torchvision torchaudio

Whisper AI — instalacja

Mając PyTorch 2.0.1 na pokładzie, można uznać, że nadeszła wiekopomna chwila. Instalujemy Whisper AI. W tym celu, wpisujemy w Terminal następujące linijki:

pip3 install setuptools-rust
pip install -U openai-whisper

Gotowe! Whisper AI jest już prawidłowo zainstalowane na naszym komputerze. Czas wytworzyć pierwsze napisy do filmów!

Tworzymy napisy do filmów z pomocą Whisper AI

Pobieramy plik dźwiękowy z YouTube

Niestety, Whisper AI ma jedno irytujące ograniczenie — obsługuje wyłącznie pliki dźwiękowe. Oznacza to, że chcąc wygenerować napisy do gotowego już filmu, musimy roboczo go przekonwertować na dźwięk. Spróbujmy więc stworzyć napisy do mojego filmu o Fortnite, który popełniłem jakiś czas temu na naszym kanale YouTube.

Na początek, pobieramy gotowy film. W tym celu, używamy jednej z metod opisanej w naszym poradniku „Pobieranie z YouTube — jak to zrobić”. Sam skorzystałem ze strony Y2Mate.com, przeklikałem na Audio i wybrałem plik MP3.

Tworzymy napisy do filmów

Mając pobrany plik MP3, znów otwieramy Terminal w folderze, gdzie znajduje się nasz zapis dźwiękowy z filmu. Teraz czas na kluczową sprawę, ponieważ Whisper AI posiada kilka modeli językowych. Te różnią się dokładnością, rozmiarem, ale co za tym idzie — czasem pracy. Spójrzcie tylko na szczegóły:

Największy model **large** może zużywać nawet **10 GB pamięci VRAM** **(karta graficzna)**. Warto więc dobierać model do możliwości własnego sprzętu. Domyślny **base** radzi sobie nieźle, choć z pewnością będziecie musieli wskoczyć do napisów na korektę (fot. Szymon Baliński / android.com.pl)

Spróbujmy więc skorzystać z podstawowego modelu, czyli base. W tym celu, zakładając, że mój plik nazywa się fortnite.mp3, komenda, jaką musicie wprowadzić w Terminal, wygląda następująco:

whisper --model base --language pl fortnite.mp3

Jeżeli zrobiliście wszystko poprawnie, okno Terminala powinno wyglądać tak, jak poniżej. Z użyciem modelu base, Whisper AI powinien pracować od kilku do kilkunastu minut, w zależności od mocy obliczeniowej komputera. Doświadczenie jednak podpowiada, że najlepiej zacząć od modelu medium lub small, jeśli macie słabszą kartę graficzną od NVIDIA. Wtedy napotkacie mniej błędów w napisach i szybciej wypuścicie plik do filmu.

Korekta, czyli szlifujemy nasze napisy do filmów

Gdy Whisper AI zakończy pracę, w folderze wyląduje kilka plików z zapisem operacji. Nas jednak najbardziej interesuje ten z rozszerzeniem SRT, czyli natywnym formatem, w którym zwykle zapisuje się napisy do filmów.

Teraz otwieramy plik SRT i… wykonujemy w nim korektę. Sztuczna inteligencja zawsze popełnia trochę błędów, więc warto się tam zanurzyć i ją poprawić.

Proponuję od razu zacząć od modelu **medium**. Ten **base** popełnia **bardzo dużo błędów**, więc musiałem prawie każdą linijkę poprawić (fot. Szymon Baliński / android.com.pl)

Wrzucamy gotowe napisy do filmu na YouTube

Mając gotowy, poprawiony plik SRT z napisami, przechodzimy do naszego YouTube Studio. Wyszukujemy nasz film i klikamy opcję Szczegóły filmu. Tam szukamy zakładki Napisy. Powinno nam się wyświetlić takie okno, jak poniżej.

Klikamy trzy kropki obok napisu Edytuj Kody Czasowe. Wybieramy opcję Prześlij Plik, a następnie Z Kodami Czasowymi. Wybieramy nasz dokument i wszystko zaczytuje się automatycznie. GOTOWE!

Zatwierdzamy zmiany. Gdy następnym razem odtworzymy film na YouTube, ten powinien mieć już funkcję wyświetlenia napisów.