Nauka

Rozpoznawanie mowy na wyższym poziomie - Microsoft lepszy od IBM

przeczytasz w 1 min.

Microsoft zdołał osiągnąć najniższą wyrazową stopę błędu, co oznacza, że jego system najlepiej rozumie wypowiadane przez nas słowa.

Choć wciąż stanowiący podstawę komunikacji z szeroko pojętymi komputerami zestaw klawiatura+myszka będzie musiał w końcu odejść do lamusa. Coraz popularniejszym interfejsem jest dotyk, a celem ostatecznym – myśli. Gdzieś po drodze czeka nas jeszcze sterowanie głosowe. Zalążki tego ostatniego mamy już na dzisiejszych smartfonach, ale trudno mówić o szerokiej funkcjonalności tego rozwiązania. Koncepcja ta na pewno jednak będzie rozwijana, a na pozycję lidera wysunął się właśnie Microsoft.

Firma Microsoft ogłosiła, że stworzyła najdokładniejszy system rozpoznawania mowy na świecie. Najdokładniejszy, to znaczy charakteryzujący się najmniejszą wyrazową stopą błędu (WER) – wynoszącą jedynie 6,3 proc. Zajmujący drugie miejsce IBM zdołał osiągnąć tylko 6,6 proc. w swoim superkomputerze Watson, o którym niejednokrotnie już pisaliśmy.

Jak Microsoftowi udało się osiągnąć tak dobry wynik? Wszystko to dzięki udoskonaleniu sieci neuronowych, których działanie zostało zainspirowane procesami odbywającymi się mózgu człowieka. Uczenie maszynowe plus ogromna moc obliczeniowa równa się doskonały efekt.

Po co Microsoft rozwija takie projekty? Przede wszystkim na potrzebę asystentki głosowej Cortana oraz programów, takich jak Skype. Z pewnością jednak gigant myśli także o przyszłości, w której interfejs głosowy może stać się pełnoprawnym sposobem na komunikację z komputerem. Sam komputer też się ma zresztą zmienić – po to, między innymi, rozwijane są gogle HoloLens.

Źródło: Microsoft, Neowin

Komentarze

7
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    kubas246
    3
    Ja mam nadzieję, że kiedyś jednak M$ udostępni Cortane w naszym kraju, bo przecież rozpoznaje język polski bardzo dobrze.
    • avatar
      piotr.potulski
      1
      Marne 93.4% poprawnie rozpoznanych słów przez IBM vs 93.7% uzyskane przez MS. Czyli jedno na jakieś 12 słów będzie źle rozpoznane. czyli jedno na 2-3 zdania trzeba będzie powtórzyć. Trochę uratuje pewnie dalsza obróbka i korygowanie słów w zależności od kontekstu, związków frazeologicznych itp. Ale patrząc na wyniki Google - używam komend głosowych - błędy są na porządku dziennym.
      • avatar
        Felek
        0
        Brakuje mi wyniku Google, które słucha androidem