Na topie

Komputer IBM rozumie mowę, prawie jak człowiek

Autor:

Szef strefy Ciekawostki

więcej artykułów ze strefy:
Ciekawostki

Kategoria: Ciekawostki Nauka Producenci: IBM

Firma IBM zdołała osiągnąć najniższy w historii stopień błędu w rozpoznawaniu ludzkiej mowy. Pod tym względem wraca więc na pierwsze miejsce.

Komputer IBM rozumie mowę, prawie jak człowiek

A A

Pół roku temu Microsoft poinformował o stworzeniu najdokładniejszego systemu rozpoznawania mowy, którego wyrazowa stopa błędu (WER) wynosi zaledwie 6,3 proc. Zdetronizowany wówczas IBM nie próżnował jednak w ostatnich miesiącach i chwali się teraz, że poprawił wynik giganta z Redmond.

Firma IBM opracowała system rozpoznawania mowy, którego WER wynosi jedynie 5,5 proc. Oznacza to, że szansa na to, że oprogramowanie błędnie zrozumie rozmówcę jest prawie taka sama, jak że błędnie zrozumie go człowiek. 

Wyrazową stopę błędu oblicza się z równania (D+S+I)/(H+D+S)*100%, gdzie D to liczba nierozpoznanych słów, S – liczba błędnie rozpoznanych słów, I – liczba wszystkich słów, a H – liczba poprawnie rozpoznanych słów. Wynik należy zaś interpretować w sposób najprostszy z możliwych – im niższy, tym lepiej.

IBM zdołał osiągnąć tak dobry wynik dzięki Watsonowi oraz kombinacji dwóch technologii: sieci neuronowej LSTM (długa pamięć krótkotrwała) oraz modeli językowych WaveNet. W uczeniu systemu wykorzystano zaś nagrania rozmów telefonicznych.

Sukces IBM jest ogromny, ale firma twierdzi, że jest jeszcze trochę do zrobienia. Celem jest osiągnięcie WER na poziomie 5,1 proc., co miałoby być porównywalne z rozumieniem przeciętnego człowieka. Naukowcy wiedzą jednak, że nie będzie to łatwe.

„Umiejętność rozumienia mowy z ludzką skutecznością to ogromne wyzwanie, ponieważ ludzka mowa, szczególnie podczas spontanicznych rozmów, jest niezwykle skomplikowana” – mówi Julia Hirschberg. Warto jednak kontynuować prace, ponieważ w przyszłości może to doprowadzić do utworzenia sprawnego interfejsu komunikacji człowiek-komputer za pomocą samej tylko mowy.

Źródło: IBM Blog, Engadget

Odsłon: 3048 Skomentuj newsa
Komentarze

4

Udostępnij
  1. drcocaina
    Oceń komentarz:

    17    

    Opublikowano: 2017-03-11 11:50

    Myślę, że to i tak dużo więcej niż u niektórych ludzi. Komuś można mówić 10x NIE i nie dociera do niego.

    Skomentuj

  2. deton24
    Oceń komentarz:

    2    

    Opublikowano: 2017-03-11 15:31

    Tutaj jest ten Watson od IBM.
    https://speech-to-text-demo.mybluemix.net/
    Raczej nie rozpoznaje lepiej od mechanizmu Googla na You Tube. Też tak można transkrypcję robić, a potem gotową ściągnąć jak się zrobi sama po jakimś czasie, w sekcji napisy.

    Skomentuj Historia edycji

  3. BrumBrumBrum
    Oceń komentarz:

    0    

    Opublikowano: 2017-03-13 10:36

    Zachwyty są trochę na wyrost. To nie jest system rozumienia mowy, ale system "odczytywania" mowy, czyli odczytania surowego, niezinterpretowanego słownego przekazu. Na prawdziwe rozumienie przyjdzie nam jeszcze długo poczekać.

    Skomentuj

    1. Gizberno
      Oceń komentarz:

      0    

      Opublikowano: 2017-03-23 12:06

      @BrumBrumBrum
      Chyba jednak nie są na wyrost. Wykorzystywanie przez Google takiego system do tłumaczenia mowy na tekst nie jest szczytem możliwości. Polecam pooglądać na judupie jak Watson rozwala ludzi w jeopardy.

      Skomentuj

Dodaj komentarz

Przy komentowaniu prosimy o przestrzeganie netykiety i regulaminu.

Aby dodać komentarz musisz być zalogowany!