Białe słuchawki nauszne leżące na drewnianym stole przed półką z pionowo ustawionymi książkami. Zdjęcie ilustrujące artykuł pt. audiobooki za darmo na platformie BookBeat

Aż 5000 audiobooków za darmo. Podziękujcie Projektowi Gutenberg

2 minuty czytania
Komentarze

Audiobooki są niezwykle drogie i czasochłonne w produkcji. Włodarze Projektu Gutenberg znaleźli jednak intrygujący sposób, aby ten proces usprawnić. Aż 5000 nagrań z dzieł klasycznej literatury i domeny publicznej zostało udostępnionych za darmo, dzięki wykorzystaniu sztucznej inteligencji. W operacji pomogli specjaliści z Microsoft oraz amerykańskiego uniwersytetu MiT, umiejscowionego w Cambridge, Massachusetts.

Jak sztuczna inteligencja pomogła stworzyć 5000 darmowych audiobooków?

audiobooki
fot. Projekt Gutenberg

W przygotowaniu darmowych nagrań Projekt Gutenberg miał to szczęście, że mógł skorzystać z technologii korporacji Microsoft. Mowa dokładnie o syntezie mowy (Text-to-Speech). Nowe oprogramowanie różni się tym, że gotowy dźwięk ma brzmieć naturalnie i popełnia niewiele błędów związanych z formatowaniem tekstu. W praktyce jest oczywiście lepiej, ale słuchając nagrania, od razu poczułem ten specyficzny, robotyczny oddźwięk w uszach. Odniosłem też wrażenie, że męski głos brzmi bardziej naturalnie, niż kobieca synteza mowy.

Udostępnione prace to m.in. dzieła Wiliama Szekspira, Agathy Christie, Jane Austen czy też Leonarda da Vinci. Pełną kolekcję łatwo odnaleźć na Spotify, Internet Archive czy też Apple Podcasts. Badacze musieli pomóc AI określić, których elementów e-booka nie czytać (spis treści, numeracja stron). Sporym problemem była też selekcja książek, które nadadzą się do syntezy (uszkodzone skany).

audiobook
fot. Szymon Baliński / android.com.pl

Audiobooki nagrane przez syntezę mowy to przyszłość, której nie unikniemy

Skoro już jesteśmy przy firmie z Cupertino, warto przypomnieć, że ta w styczniu 2023 r. zaczęła też sprzedawać audiobooki powstałe przy użyciu syntezy mowy. Oczywiście, nie obyło się bez protestu lektorów i aktorów, których próbki głosu zostały użyte do treningu sztucznej inteligencji. Z praktycznego punktu widzenia ma to oczywiście sens. Nie trzeba wynajmować studia i zatrudniać profesjonalnego lektora, którego sesja nagraniowa może potrwać nawet kilkadziesiąt godzin.

Projekt Gutenberg zapowiedział również, że w przyszłości pojawi się narzędzie pozwalające przygotować audiobooka samodzielnie, i to z własnym głosem, po udostępnieniu stosownej próbki. Moja dziewczyna by się ucieszyła, ale raczej większość nie chciałaby słuchać własnego głosu.

zdjęcie główne: Pexels / Karolina Grabowska

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.

Motyw