Sztuczna inteligencja Google potrafi rozpoznawać słowa z ruchu ust i robi to lepiej niż człowiek

3 minuty czytania
Komentarze
google_deepmind_logo-980x420-919x420

Jakiś czas temu informowałem o postępach w pracy nad sztuczną inteligencją Google. Po zaskakujących wynikach eksperymentu, podczas którego program miał sam zbudować algorytm kryptograficzny, przyszła pora na trudniejsze zadanie. Pracownicy działu DeepMind oraz Uniwersytetu Oxford stworzyli program „Watch, Listen, Attend, and Spell”, który miał na podstawie dostarczonego materiału opanować technikę czytania z ruchu ust. Materiału nie brakowało – oprogramowanie miało do dyspozycji ponad 5000 godzin nagrań stacji BBC. Nagrania zawierały 118 tysięcy zdań zbudowanych z 17,5 słów.

bbc-ai-rozklad-godzin

Zadanie nie było łatwe – materiały z założenia nie były przygotowane do takich celów. W przypadku typowych programów, gdzie dochodzi do agresywnych kłótni (np. polityków, komentatorów), rozpoznanie wypowiadanych słów może być nawet niemożliwe. Ktoś jednak nie przejmował się tym a sztuczna inteligencja została potraktowana jak koń ciągnący pług. Tu masz zadanie, tu materiał, męcz się.

Eksperyment o dziwo zakończył się pełnym sukcesem, oprogramowanie Google osiągnęło skuteczność na poziomie 50%. Przerażające jest jednak to, że na tym samym materiale, profesjonalista (tym razem człowiek) zrozumiał jedynie 23,8% wypowiedzianych słów.

5aa5695742b5a91fac6ff2459eeac5c66b37ed62dbd00c02abc7efaeaebb3f46

Można się obawiać o konsekwencje upowszechnienia tego programu, lecz w tym przypadku jestem gotowy bronić korporację. Wyobrażacie sobie okulary Google Glass potrafiące rozpoznawać mowę, oraz autora wypowiedzianych słów? Dla ludzi, którzy z jakiegoś powodu stracili słuch, taki gadżet byłby powrotem do normalnego życia. Zastosowań można znaleźć więcej. Te algorytmy można zaimplementować w serwisie YouTube, do poprawienia wbudowanego rozpoznawania mowy. W połączeniu z ulepszonym tłumaczem (wspieranym przez algorytmy sztucznej inteligencji),  można zlikwidować bariery językowe i zapewnić filmom niemal nieograniczony zasięg. Oraz nieograniczoną konkurencję, coś za coś.

Co jeszcze? Być może da się wykorzystać ten program w smartfonach, celem poprawienia rozpoznawania mowy. W tym przypadku ciężko jednak określić, czy nasze telefony podołają temu wyzwaniu. Poważnym problemem będzie nie tylko niewielka moc obliczeniowa. Nie da się ukryć, że przeszukiwanie bazy danych oraz analiza wideo w czasie rzeczywistym, może okazać się zbyt wymagającym zadaniem, dla podzespołów przeciętnego smartfona. Trzeba jednak pamiętać również o kamerach, które niezbyt dobrze radzą sobie ze słabym oświetleniem.

Tempo rozwoju sztucznej inteligencji Google naprawdę robi wrażenie. Po raz pierwszy o projekcie usłyszeliśmy podczas konferencji Google I/O. Po chwili ciszy, nagle jesteśmy zalewani doniesieniami o eksperymentach zakończonych powodzeniem. Tu trzeba coś zaznaczyć – Google informuje tylko o udanych projektach. Nie wiemy czego jeszcze dowiedzieli się inżynierzy, oraz czy próbowano uosobić ten twór. Nie zastanawia was co by się stało, gdyby Google stworzyło coś na wzór Microsoft Tay? Jakie poglądy miał by taki bot i jak widziałby przyszłość ludzi? Nie da się ukryć, że po przeanalizowaniu takiego materiału wideo, wykształcenie własnych poglądów nie powinno być problemem.

Źródło: arxiv.org

Motyw