Na topie

Asystent Google wreszcie będzie mówić jak człowiek

Autor:

Szef strefy Ciekawostki

więcej artykułów ze strefy:
Ciekawostki

Kategoria: Ciekawostki Nauka Tematyka: DeepMind Producenci: Google

Całkowicie naturalna mowa komputerowa to coś, z czym do tej pory nie poradzili sobie inżynierowie. Teraz są jednak bliżej niż kiedykolwiek wcześniej.

Asystent Google wreszcie będzie mówić jak człowiek

A A

Asystent Google coraz lepiej rozumie, co do niego mówimy i udziela coraz bardziej precyzyjnych odpowiedzi. Teraz Amerykanie starają się, by zaczął też bardziej naturalnie mówić. Z pomocą przychodzi sztuczna sieć neuronowa.

Zamiana tekstu na mowę – jak to działa obecnie?

Obecnie stosowane są dwa modele zamiany tekstu na mowę (TTS). Podstawowym jest konkatenatywny TTS, który wykorzystuje pocięte na maleńkie fragmenty nagrania lektora tak, by łączyć ze sobą części wypowiedzi w jedno pełne zdanie. Niestety to prowadzi do występowania poważnych różnic intonacyjnych oraz błędnie przedstawianych emocji. 

Alternatywą jest parametryczny TTS, czyli głos generowany przez komputer, którego bazą jest zbiór nie tyle konkretnych dźwięków, co wytycznych dotyczących gramatyki i ruchów warg. Niestety jest to rozwiązanie, którego efektem jest równie nienaturalna mowa. I w tym miejscu właśnie pojawia się…

WaveNet, czyli naturalna mowa od DeepMind

Należący do firmy Google zespół DeepMind podszedł do tematu inaczej i stworzył WaveNet. Jest to technika wykorzystująca sieć neuronową. Poprzez analizę nagrań system uczył się zasad naturalnej mowy (czyli przede wszystkim prawidłowego intonowania). Stworzył następnie model realistycznych fal i na tej podstawie jest w stanie generować próbki mowy. 

Najpierw generuje kilka pierwszych dźwięków, a następnie kolejne (mając w pamięci właściwości tych poprzednich), aby głos brzmiał tak naturalnie, jak to tylko możliwe. W ten sposób można w dodatku wytrenować mowę w różnych językach i dialektach – możliwości pod tym względem są praktycznie nieograniczone, a wszystko zależy od tego, na jakiej bazie uczyć będzie się system.

Długa droga, ale na szczęście widać już metę

WaveNet został zaprezentowany dwanaście miesięcy temu. Nie mógł jednak zostać wdrożony, ponieważ pożerał ogromne ilości zasobów, a do tego był dość wolny. Inżynierowie z DeepMind nie próżnowali i stworzyli nowy, znacznie szybszy i działający w chmurze model.

Jest 1000 razy szybszy od oryginału (czyli wygenerowanie 1 sekundy mowy zajmuje mu zaledwie 50 ms). Poprawiła się również jakość, której gwarancją jest obecnie wykorzystanie aż 24 tysięcy próbek w każdej sekundzie mowy.

WaveNet szybkość

Przeprowadzone przez DeepMind badanie wykazało, że w pięciostopniowej skali słuchacze ocenili „ludzkość” systemu WaveNet na 4,347. Dla porównania, dotychczasowy najlepszy wynik wynosił 4,186, a mowa człowieka otrzymała notę 4,667. Dodajmy dla ścisłości, że są to wyniki z testu w języku angielskim (tutaj możecie posłuchać próbek).

Asystent Google mówi już głosem WaveNet

Firma Google poinformowała, że jej Asystent został zaktualizowany o WaveNet w językach angielskim i japońskim – na wszystkich platformach. „Wierzymy, że to dopiero początek i jesteśmy podekscytowani możliwościami, jakie odblokowuje WaveNet” – mówią autorzy. Trwają też prace nad wprowadzeniem tego rozwiązania w innych językach.

Źródło: DeepMind, Google

Odsłon: 2050 Skomentuj newsa
Komentarze

6

Udostępnij
  1. eltra
    Oceń komentarz:

    2    

    Opublikowano: 2017-10-10 13:16

    Japoneczka fajnie mowi lubie ten jezyk :)

    Skomentuj

  2. deLillah
    Oceń komentarz:

    2    

    Opublikowano: 2017-10-10 14:51

    "dwa modele zamiany mowy na tekst (TTS)" - a nie odwrotnie?
    "Niestety jest ro związanie, którego" - kopiuj/wklej zawiodło?
    Jakieś błędów raportowanie wprowadźcie może?

    Skomentuj

    1. Q2hvY2hsaWs8
      Oceń komentarz:

      2    

      Opublikowano: 2017-10-10 15:33

      A może lepiej niech ich po prostu nie robią? Rozumiem, że zdarza się, ale to co tu na Benchu jest to totalna przesada, nikt nie czyta tego co napisał przed publikacją.

      Skomentuj

  3. figer
    Oceń komentarz:

    -1    

    Opublikowano: 2017-10-10 18:53

    Zaraz, zaraz - WaveNet czy SkyNet?

    Skomentuj

  4. HomeAudio
    Oceń komentarz:

    0    

    Opublikowano: 2017-10-10 19:14

    "Stworzył następnie model realistycznych fal"

    Zawsze mówiłem że "model realistycznych fal" to podstawa!

    (PS: tak to jest jak się pisze o czymś o czym kompletnie nie ma się pojęcia! "realistyczne fale" - ha ha ha!)

    Skomentuj

  5. AndreoKomp
    Oceń komentarz:

    2    

    Opublikowano: 2017-10-10 19:21

    Moim zdaniem rewelacja! Ciekawe kiedy powstanie wersja dla języka polskiego i czy będzie można ją wykorzystać do czytanie dowolnego tekstu lub np. napisów w filmie.

    Skomentuj

Dodaj komentarz

Przy komentowaniu prosimy o przestrzeganie netykiety i regulaminu.

Aby dodać komentarz musisz być zalogowany!