Whisper AI to darmowe narzędzie od Open AI (tak, tej korporacji od ChatGPT), które sprawia, że już nigdy nie zmarnujecie czasu na napisy do filmów. Tego rozwiązania używają obecnie największe kanały na YouTube, podcasty, czy też TikTokerzy. Pokażę więc Wam jak sprawnie przygotować Whisper AI do codziennej pracy tak, aby Wasi odbiorcy zawsze mogli włączyć napisy do filmu w wielu językach.
Szybkie napisy do filmu z Whisper AI — spis treści
Przygotowujemy się do instalacji Whisper AI. Co będzie nam potrzebne?
Na początek, musimy zainstalować na komputerze dwa programy. Python 3.9.9 (koniecznie ta wersja), NVIDIA CUDA 11.6, a także kodek FFmpeg 6.0. Choć ten drugi jest opcjonalny, to sprawia, że do obliczeń wykonywanych przez sztuczną inteligencję będzie też wykorzystywana nasza karta graficzna.
Jeżeli nie macie karty graficznej od Zielonych, możecie instalację tego komponentu pominąć. Jednakże, wynik zastosowania tego oprogramowania będzie prosty. Nasze napisy do filmów zostaną wygenerowane jeszcze szybciej.
Poniżej znajdziecie bezpośrednie linki do instalatorów tych aplikacji.
Python 3.9.9 – instalacja
Najważniejsza sprawa — zaznaczamy opcję Add Python 3.9 to PATH. Jest to kluczowe dla dalszego procesu instalacji i pracy z Whisper AI. Poza tym, instalujemy Python 3.9.9 i czekamy na komunikat o ukończeniu operacji.
NVIDIA CUDA 11.6 – instalacja
Przede wszystkim, trzeba chwilkę poczekać. To jest pakiet komponentów, który waży ok. 2,4 GB. Odpalamy instalator i wypakowujemy niezbędne elementy.
Co ważne, nie musimy instalować wszystkiego. Napisy do filmów wymagają tylko komponentu CUDA. Zaznaczamy więc instalację Niestandardową i wybieramy elementy tak, jak zaznaczyłem to na poniższej grafice. Potwierdzamy kontynuację instalacji i czekamy, aż proces zostanie ukończony.
FFmpeg 6.0 – instalacja
Pobrane archiwum wypakowujemy w dowolnym folderze. Interesują nas pliki znajdujące się w podfolderze „bin”: ffmpeg.exe, ffplay.exe, ffprobe.exe. Wszystkie trzy kopiujemy do folderu C:/PATH. Oczywiście, jeżeli system Windows macie zainstalowany na innym dysku, tworzycie folder PATH w partycji z inną literką.
Jeżeli pamiętacie moje przygody z automatycznym odbieraniem gier w Epic Games Store, to powinniście wiedzieć, gdzie zmierzamy — do zmiennych środowiskowych. W tym celu, z poziomu wyszukiwarki Menu Start, odpalamy systemowy konfigurator o nazwie Edytuj zmienne środowiskowe systemu.
Klikamy Zmienne środowiskowe, zaznaczamy Path i klikamy Edytuj. W następnym oknie wciskamy Nowy i dodajemy ścieżkę C:/PATH lub tą, którą Wy utworzyliście, zgodnie z miejscem instalacji Waszego systemu operacyjnego. Potwierdzamy przez przycisk OK i zamykamy wszystkie okna. FFmpeg 6.0 został prawidłowo zainstalowany.
Whisper AI — instalujemy program, który przygotuje za nas napisy do filmów
Jesteśmy już w pełni przygotowani, by zainstalować Whisper AI. Przenosimy się więc do Terminala. W tym celu, klikamy prawym przyciskiem myszy na pulpicie i wybieramy opcję Otwórz w Terminalu. Ukaże się naszym oczom Wiersz Poleceń.
PyTorch 2.0.1 – instalacja
Zanim jeszcze zainstalujemy Whisper AI, musimy pobrać jeszcze komponent PyTorch 2.0.1, wymagany do działania programu. Jeżeli posiadasz kartę graficzną NVIDIA i chcesz przygotowywać z nią napisy do filmów, wpisz to polecenie do Terminala:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
Jeżeli natomiast chcesz korzystać wyłącznie z mocy procesora (CPU), wpisz alternatywne polecenie:
pip3 install torch torchvision torchaudio
Whisper AI — instalacja
Mając PyTorch 2.0.1 na pokładzie, można uznać, że nadeszła wiekopomna chwila. Instalujemy Whisper AI. W tym celu, wpisujemy w Terminal następujące linijki:
pip3 install setuptools-rust
pip install -U openai-whisper
Gotowe! Whisper AI jest już prawidłowo zainstalowane na naszym komputerze. Czas wytworzyć pierwsze napisy do filmów!
Tworzymy napisy do filmów z pomocą Whisper AI
Pobieramy plik dźwiękowy z YouTube
Niestety, Whisper AI ma jedno irytujące ograniczenie — obsługuje wyłącznie pliki dźwiękowe. Oznacza to, że chcąc wygenerować napisy do gotowego już filmu, musimy roboczo go przekonwertować na dźwięk. Spróbujmy więc stworzyć napisy do mojego filmu o Fortnite, który popełniłem jakiś czas temu na naszym kanale YouTube.
Na początek, pobieramy gotowy film. W tym celu, używamy jednej z metod opisanej w naszym poradniku „Pobieranie z YouTube — jak to zrobić”. Sam skorzystałem ze strony Y2Mate.com, przeklikałem na Audio i wybrałem plik MP3.
Tworzymy napisy do filmów
Mając pobrany plik MP3, znów otwieramy Terminal w folderze, gdzie znajduje się nasz zapis dźwiękowy z filmu. Teraz czas na kluczową sprawę, ponieważ Whisper AI posiada kilka modeli językowych. Te różnią się dokładnością, rozmiarem, ale co za tym idzie — czasem pracy. Spójrzcie tylko na szczegóły:
Spróbujmy więc skorzystać z podstawowego modelu, czyli base. W tym celu, zakładając, że mój plik nazywa się fortnite.mp3, komenda, jaką musicie wprowadzić w Terminal, wygląda następująco:
whisper --model base --language pl fortnite.mp3
Jeżeli zrobiliście wszystko poprawnie, okno Terminala powinno wyglądać tak, jak poniżej. Z użyciem modelu base, Whisper AI powinien pracować od kilku do kilkunastu minut, w zależności od mocy obliczeniowej komputera. Doświadczenie jednak podpowiada, że najlepiej zacząć od modelu medium lub small, jeśli macie słabszą kartę graficzną od NVIDIA. Wtedy napotkacie mniej błędów w napisach i szybciej wypuścicie plik do filmu.
Korekta, czyli szlifujemy nasze napisy do filmów
Gdy Whisper AI zakończy pracę, w folderze wyląduje kilka plików z zapisem operacji. Nas jednak najbardziej interesuje ten z rozszerzeniem SRT, czyli natywnym formatem, w którym zwykle zapisuje się napisy do filmów.
Teraz otwieramy plik SRT i… wykonujemy w nim korektę. Sztuczna inteligencja zawsze popełnia trochę błędów, więc warto się tam zanurzyć i ją poprawić.
Wrzucamy gotowe napisy do filmu na YouTube
Mając gotowy, poprawiony plik SRT z napisami, przechodzimy do naszego YouTube Studio. Wyszukujemy nasz film i klikamy opcję Szczegóły filmu. Tam szukamy zakładki Napisy. Powinno nam się wyświetlić takie okno, jak poniżej.
Klikamy trzy kropki obok napisu Edytuj Kody Czasowe. Wybieramy opcję Prześlij Plik, a następnie Z Kodami Czasowymi. Wybieramy nasz dokument i wszystko zaczytuje się automatycznie. GOTOWE!
Zatwierdzamy zmiany. Gdy następnym razem odtworzymy film na YouTube, ten powinien mieć już funkcję wyświetlenia napisów.