Asystent Google wreszcie będzie mówić jak człowiek

10 października 2017przeczytasz w 2 min.

Całkowicie naturalna mowa komputerowa to coś, z czym do tej pory nie poradzili sobie inżynierowie. Teraz są jednak bliżej niż kiedykolwiek wcześniej.

Asystent Google coraz lepiej rozumie, co do niego mówimy i udziela coraz bardziej precyzyjnych odpowiedzi. Teraz Amerykanie starają się, by zaczął też bardziej naturalnie mówić. Z pomocą przychodzi sztuczna sieć neuronowa.

Zamiana tekstu na mowę – jak to działa obecnie?

Obecnie stosowane są dwa modele zamiany tekstu na mowę (TTS). Podstawowym jest konkatenatywny TTS, który wykorzystuje pocięte na maleńkie fragmenty nagrania lektora tak, by łączyć ze sobą części wypowiedzi w jedno pełne zdanie. Niestety to prowadzi do występowania poważnych różnic intonacyjnych oraz błędnie przedstawianych emocji.

Alternatywą jest parametryczny TTS, czyli głos generowany przez komputer, którego bazą jest zbiór nie tyle konkretnych dźwięków, co wytycznych dotyczących gramatyki i ruchów warg. Niestety jest to rozwiązanie, którego efektem jest równie nienaturalna mowa. I w tym miejscu właśnie pojawia się…

WaveNet, czyli naturalna mowa od DeepMind

Należący do firmy Google zespół DeepMind podszedł do tematu inaczej i stworzył WaveNet. Jest to technika wykorzystująca sieć neuronową. Poprzez analizę nagrań system uczył się zasad naturalnej mowy (czyli przede wszystkim prawidłowego intonowania). Stworzył następnie model realistycznych fal i na tej podstawie jest w stanie generować próbki mowy.

Najpierw generuje kilka pierwszych dźwięków, a następnie kolejne (mając w pamięci właściwości tych poprzednich), aby głos brzmiał tak naturalnie, jak to tylko możliwe. W ten sposób można w dodatku wytrenować mowę w różnych językach i dialektach – możliwości pod tym względem są praktycznie nieograniczone, a wszystko zależy od tego, na jakiej bazie uczyć będzie się system.

Długa droga, ale na szczęście widać już metę

WaveNet został zaprezentowany dwanaście miesięcy temu. Nie mógł jednak zostać wdrożony, ponieważ pożerał ogromne ilości zasobów, a do tego był dość wolny. Inżynierowie z DeepMind nie próżnowali i stworzyli nowy, znacznie szybszy i działający w chmurze model.

Jest 1000 razy szybszy od oryginału (czyli wygenerowanie 1 sekundy mowy zajmuje mu zaledwie 50 ms). Poprawiła się również jakość, której gwarancją jest obecnie wykorzystanie aż 24 tysięcy próbek w każdej sekundzie mowy.

WaveNet szybkość

Przeprowadzone przez DeepMind badanie wykazało, że w pięciostopniowej skali słuchacze ocenili „ludzkość” systemu WaveNet na 4,347. Dla porównania, dotychczasowy najlepszy wynik wynosił 4,186, a mowa człowieka otrzymała notę 4,667. Dodajmy dla ścisłości, że są to wyniki z testu w języku angielskim (tutaj możecie posłuchać próbek).

Asystent Google mówi już głosem WaveNet

Firma Google poinformowała, że jej Asystent został zaktualizowany o WaveNet w językach angielskim i japońskim – na wszystkich platformach. „Wierzymy, że to dopiero początek i jesteśmy podekscytowani możliwościami, jakie odblokowuje WaveNet” – mówią autorzy. Trwają też prace nad wprowadzeniem tego rozwiązania w innych językach.

Źródło: DeepMind, Google

Komentarze

Zaloguj się, aby skomentować

eltra
2017-10-1013:16
2
Japoneczka fajnie mowi lubie ten jezyk :)
deLillah
2017-10-1014:51
2
"dwa modele zamiany mowy na tekst (TTS)" - a nie odwrotnie?
"Niestety jest ro związanie, którego" - kopiuj/wklej zawiodło?
Jakieś błędów raportowanie wprowadźcie może?
AndreoKomp
2017-10-1019:21
2
Moim zdaniem rewelacja! Ciekawe kiedy powstanie wersja dla języka polskiego i czy będzie można ją wykorzystać do czytanie dowolnego tekstu lub np. napisów w filmie.

figer
2017-10-1018:53
-1
Zaraz, zaraz - WaveNet czy SkyNet?
HomeAudio
2017-10-1019:14
0
"Stworzył następnie model realistycznych fal"

Zawsze mówiłem że "model realistycznych fal" to podstawa!

(PS: tak to jest jak się pisze o czymś o czym kompletnie nie ma się pojęcia! "realistyczne fale" - ha ha ha!)