Nauka

Komputer IBM rozumie mowę, prawie jak człowiek

opublikowano przez Wojciech Kulik w dniu 2017-03-11

Firma IBM zdołała osiągnąć najniższy w historii stopień błędu w rozpoznawaniu ludzkiej mowy. Pod tym względem wraca więc na pierwsze miejsce.

Pół roku temu Microsoft poinformował o stworzeniu najdokładniejszego systemu rozpoznawania mowy, którego wyrazowa stopa błędu (WER) wynosi zaledwie 6,3 proc. Zdetronizowany wówczas IBM nie próżnował jednak w ostatnich miesiącach i chwali się teraz, że poprawił wynik giganta z Redmond.

Firma IBM opracowała system rozpoznawania mowy, którego WER wynosi jedynie 5,5 proc. Oznacza to, że szansa na to, że oprogramowanie błędnie zrozumie rozmówcę jest prawie taka sama, jak że błędnie zrozumie go człowiek. 

IBM zdołał osiągnąć tak dobry wynik dzięki Watsonowi oraz kombinacji dwóch technologii: sieci neuronowej LSTM (długa pamięć krótkotrwała) oraz modeli językowych WaveNet. W uczeniu systemu wykorzystano zaś nagrania rozmów telefonicznych.

Sukces IBM jest ogromny, ale firma twierdzi, że jest jeszcze trochę do zrobienia. Celem jest osiągnięcie WER na poziomie 5,1 proc., co miałoby być porównywalne z rozumieniem przeciętnego człowieka. Naukowcy wiedzą jednak, że nie będzie to łatwe.

„Umiejętność rozumienia mowy z ludzką skutecznością to ogromne wyzwanie, ponieważ ludzka mowa, szczególnie podczas spontanicznych rozmów, jest niezwykle skomplikowana” – mówi Julia Hirschberg. Warto jednak kontynuować prace, ponieważ w przyszłości może to doprowadzić do utworzenia sprawnego interfejsu komunikacji człowiek-komputer za pomocą samej tylko mowy.

Źródło: IBM Blog, Engadget

marketplace

Komentarze

4
Zaloguj się, żeby skomentować
avatar
Dodaj
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    Myślę, że to i tak dużo więcej niż u niektórych ludzi. Komuś można mówić 10x NIE i nie dociera do niego.
  • avatar
    Tutaj jest ten Watson od IBM.
    https://speech-to-text-demo.mybluemix.net/
    Raczej nie rozpoznaje lepiej od mechanizmu Googla na You Tube. Też tak można transkrypcję robić, a potem gotową ściągnąć jak się zrobi sama po jakimś czasie, w sekcji napisy.
  • avatar
    Zachwyty są trochę na wyrost. To nie jest system rozumienia mowy, ale system "odczytywania" mowy, czyli odczytania surowego, niezinterpretowanego słownego przekazu. Na prawdziwe rozumienie przyjdzie nam jeszcze długo poczekać.
    Zaloguj się