Nauka

Komputer IBM rozumie mowę, prawie jak człowiek

przeczytasz w 1 min.

Firma IBM zdołała osiągnąć najniższy w historii stopień błędu w rozpoznawaniu ludzkiej mowy. Pod tym względem wraca więc na pierwsze miejsce.

Pół roku temu Microsoft poinformował o stworzeniu najdokładniejszego systemu rozpoznawania mowy, którego wyrazowa stopa błędu (WER) wynosi zaledwie 6,3 proc. Zdetronizowany wówczas IBM nie próżnował jednak w ostatnich miesiącach i chwali się teraz, że poprawił wynik giganta z Redmond.

Firma IBM opracowała system rozpoznawania mowy, którego WER wynosi jedynie 5,5 proc. Oznacza to, że szansa na to, że oprogramowanie błędnie zrozumie rozmówcę jest prawie taka sama, jak że błędnie zrozumie go człowiek. 

IBM zdołał osiągnąć tak dobry wynik dzięki Watsonowi oraz kombinacji dwóch technologii: sieci neuronowej LSTM (długa pamięć krótkotrwała) oraz modeli językowych WaveNet. W uczeniu systemu wykorzystano zaś nagrania rozmów telefonicznych.

Sukces IBM jest ogromny, ale firma twierdzi, że jest jeszcze trochę do zrobienia. Celem jest osiągnięcie WER na poziomie 5,1 proc., co miałoby być porównywalne z rozumieniem przeciętnego człowieka. Naukowcy wiedzą jednak, że nie będzie to łatwe.

„Umiejętność rozumienia mowy z ludzką skutecznością to ogromne wyzwanie, ponieważ ludzka mowa, szczególnie podczas spontanicznych rozmów, jest niezwykle skomplikowana” – mówi Julia Hirschberg. Warto jednak kontynuować prace, ponieważ w przyszłości może to doprowadzić do utworzenia sprawnego interfejsu komunikacji człowiek-komputer za pomocą samej tylko mowy.

Źródło: IBM Blog, Engadget

Komentarze

4
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    drcocaina
    17
    Myślę, że to i tak dużo więcej niż u niektórych ludzi. Komuś można mówić 10x NIE i nie dociera do niego.
    • avatar
      deton24
      2
      Tutaj jest ten Watson od IBM.
      https://speech-to-text-demo.mybluemix.net/
      Raczej nie rozpoznaje lepiej od mechanizmu Googla na You Tube. Też tak można transkrypcję robić, a potem gotową ściągnąć jak się zrobi sama po jakimś czasie, w sekcji napisy.
      • avatar
        Konto usunięte
        0
        Zachwyty są trochę na wyrost. To nie jest system rozumienia mowy, ale system "odczytywania" mowy, czyli odczytania surowego, niezinterpretowanego słownego przekazu. Na prawdziwe rozumienie przyjdzie nam jeszcze długo poczekać.