Uczenie maszynowe pozwoli nam odczytać teksty w zapomnianych językach

22 października 2020 2 minuty czytania

Naukowcy z MIT stworzyli nowy system rozpoznawania pisma. Wykorzystuje on uczenie maszynowe i Sztuczną Inteligencję, aby pomóc lingwistom rozszyfrować języki, które zostały już dawno zapomniane. Badania sugerują, że większość języków, które kiedykolwiek istniały, nie jest już używana. Natomiast dziesiątki martwych języków wciąż nie jest znana. Lingwiści nie wiedzą wystarczająco dużo o gramatyce, słownictwie i składni, aby zrozumieć teksty w nich pozostawione. I tu wkracza Sztuczna Inteligencja.

Sztuczna Inteligencja przetłumaczy zapomniane języki

Jednym z głównych problemów jest to, że wiele z tych zaginionych języków nie ma dobrze zbadanego języka porównawczego, z którym można by się porównać. Niektórym z nich brakuje również przekładek, takich jak biała przestrzeń i interpunkcja. To jednak może wkrótce przestać być problemem. Otóż Laboratorium Informatyki i Sztucznej Inteligencji MIT dokonało ostatnio przełomu w rozszyfrowywaniu utraconych języków. Naukowcy stworzyli nowy system, który był w stanie automatycznie rozszyfrować zapomniany język bez konieczności posiadania zaawansowanej wiedzy na temat jego relacji z innymi językami. Wszystko dlatego, że jest on w stanie sam się ich doszukiwać oraz je negować. Ostatnio na przykład udowodnił, że język iberyjski nie jest spokrewniony z baskijskim. Naukowcy biorący udział w projekcie mają ostateczny cel, jakim jest możliwość rozszyfrowania języków, które okazały się zbyt trudną zagadką dla badaczy.

Zobacz też: Realme 7 w Polsce – coś dla graczy, którzy szukają niedrogiego smartfona

Lider projektu, Regina Barzilay, twierdzi, że system opiera się na siedmiu zasadach opartych na historycznych spostrzeżeniach lingwistycznych. Zgodnie z tymi zasadami języki na ogół rozwijają się tylko w sposób przewidywalny. Języki rzadko dodają lub usuwają cały dźwięk, a w związku z tym prawdopodobnie dochodzi do jego zastępowania. Na przykład słowo z literą P w języku macierzystym może zmienić się na B w języku potomnym. Jednak jest mało prawdopodobne, by zmieniło się na K ze względu na lukę w wymowie. Wykorzystując te ograniczenia językowe, naukowcy z MIT opracowali algorytm odszyfrowujący. Ten jest w stanie poradzić sobie z ogromną przestrzenią możliwych przekształceń. Algorytm ten uczy się osadzać dźwięki językowe w wielowymiarowej przestrzeni, w której różnice w wymowie są odzwierciedlone w odległości pomiędzy odpowiadającymi im wektorami. Model ma na celu segmentację słów w starożytnym języku i mapowanie ich do odpowiedników w powiązanym języku współczesnym.

Źródło: SlashGear