Nauka

Rozpoznawanie mowy na wyższym poziomie - Microsoft lepszy od IBM

Wojciech Kulik | Redaktor serwisu benchmark.pl
7 komentarzy Dyskutuj z nami

Microsoft zdołał osiągnąć najniższą wyrazową stopę błędu, co oznacza, że jego system najlepiej rozumie wypowiadane przez nas słowa.

Choć wciąż stanowiący podstawę komunikacji z szeroko pojętymi komputerami zestaw klawiatura+myszka będzie musiał w końcu odejść do lamusa. Coraz popularniejszym interfejsem jest dotyk, a celem ostatecznym – myśli. Gdzieś po drodze czeka nas jeszcze sterowanie głosowe. Zalążki tego ostatniego mamy już na dzisiejszych smartfonach, ale trudno mówić o szerokiej funkcjonalności tego rozwiązania. Koncepcja ta na pewno jednak będzie rozwijana, a na pozycję lidera wysunął się właśnie Microsoft.

Firma Microsoft ogłosiła, że stworzyła najdokładniejszy system rozpoznawania mowy na świecie. Najdokładniejszy, to znaczy charakteryzujący się najmniejszą wyrazową stopą błędu (WER) – wynoszącą jedynie 6,3 proc. Zajmujący drugie miejsce IBM zdołał osiągnąć tylko 6,6 proc. w swoim superkomputerze Watson, o którym niejednokrotnie już pisaliśmy.

Jak Microsoftowi udało się osiągnąć tak dobry wynik? Wszystko to dzięki udoskonaleniu sieci neuronowych, których działanie zostało zainspirowane procesami odbywającymi się mózgu człowieka. Uczenie maszynowe plus ogromna moc obliczeniowa równa się doskonały efekt.

Po co Microsoft rozwija takie projekty? Przede wszystkim na potrzebę asystentki głosowej Cortana oraz programów, takich jak Skype. Z pewnością jednak gigant myśli także o przyszłości, w której interfejs głosowy może stać się pełnoprawnym sposobem na komunikację z komputerem. Sam komputer też się ma zresztą zmienić – po to, między innymi, rozwijane są gogle HoloLens.

Źródło: Microsoft, Neowin

Komentarze

7
Zaloguj się, aby skomentować
avatar
Dodaj
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    kubas246
    Ja mam nadzieję, że kiedyś jednak M$ udostępni Cortane w naszym kraju, bo przecież rozpoznaje język polski bardzo dobrze.
    3
  • avatar
    piotr.potulski
    Marne 93.4% poprawnie rozpoznanych słów przez IBM vs 93.7% uzyskane przez MS. Czyli jedno na jakieś 12 słów będzie źle rozpoznane. czyli jedno na 2-3 zdania trzeba będzie powtórzyć. Trochę uratuje pewnie dalsza obróbka i korygowanie słów w zależności od kontekstu, związków frazeologicznych itp. Ale patrząc na wyniki Google - używam komend głosowych - błędy są na porządku dziennym.
    1
  • avatar
    Felek
    Brakuje mi wyniku Google, które słucha androidem