Rozpoznawanie mowy w Windows 8 i Phone 8

19 kwietnia 2013przeczytasz w 4 min.

Autor:DawidKosiński

Sterowanie za pomocą klawiatury czy nawet ekranu dotykowego to już standard. Najnowsze systemy takie jak Windows 8 i Phone 8 "rozumieją" komendy głosowe.

Rozpoznawanie mowy to kolejne po interfejsie dotykowym rozwiązanie, które ma sprawić, że nasza komunikacja z komputerem będzie jeszcze prosta, intuicyjna i... naturalna. Postanowiliśmy sprawdzić, jak rozwiązanie to działa na dwóch systemach operacyjnych Microsoftu, czyli Windows 8 Pro oraz Windows Phone 8 i czy warto z niego korzystać.

Trochę historii – jak porozumiewano się z maszyną

Sposoby komunikacji z komputerem zmieniały się na przestrzeni lat. Za pierwszy interfejs, za pomocą którego człowiek mógł wydawać polecenia wydaje się karta perforowana, której historia sięga 1832 roku. Była ona używana między innymi w maszynach do tkania oraz pozytywkach. Jeśli bralibyśmy pod uwagę tylko rozwiązania, które stosowano w prawdziwych komputerach, zapewne należałoby ten opis rozpocząć od klawiatury, którą w komputerach zaczęto stosować około 1960 roku. Dwie dekady później dołączyła do niej mysz i standard ten jest używany do dziś. Co prawda mysz jest zastępowana przez gładziki i trackballe, ale nadal jest to zbliżona do niej kategoria urządzeń. Następnym popularnym interfejsem stały się ekrany dotykowe znane ze smartfonów i tabletów oraz gesty, których używa się między innymi podczas sterowania konsolą Xbox 360 z czujnikiem Kinect. Jeszcze przed ekranami dotykowymi i gestami pojawiły się pierwsze komputery sterowane głosem, ale rozwiązanie to do tej pory było na tyle niedopracowane, że nie zdecydowano się na stosowanie go jako priorytetowego interfejsu. Właśnie, było niedoskonałe? A może nadal takie jest? Zobaczmy sami.

Konfiguracja rozpoznawania mowy w Windows 8

Przed rozpoczęciem z korzystania z mowy warto wziąć pod uwagę to, że funkcja ta nie jest dostępna w języku polskim. Mogą jej używać osoby posługujące się językiem angielskim, francuskim, niemieckim, japońskim, koreańskim, mandaryńskim i hiszpańskim. Microsoft postanowił skupić się na największych i najbardziej rozwiniętych krajach, jednak nie jest wykluczone, że za jakiś czas funkcja ta dotrze również do naszego kraju.

Jeśli mimo wszystko chcecie korzystać z tego rozwiązania, konieczne jest skonfigurowanie systemu i zmiana jego języka. By to zrobić, należy w trybie klasycznym przesunąć kursor od środka ekranu do jego prawego narożnika i wybranie ikony „Ustawienia”. W przypadku używania ekranu dotykowego konieczne jest przesunięcie palca od prawej krawędzi w kierunku środka ekranu. Następnie należy wybrać opcję „Zegar, język i region”, potem „Język”. Jeśli nie mamy żadnego języka poza polskim, konieczne jest kliknięcie opcji „Dodaj język” i następne wybranie jednego ze wspieranych języków. W naszym przypadku jest to „English (United States)”, który jest powszechnie używany w największym polskim mieście, czyli Chicago. Gdy obok języka polskiego pojawi się ten wybrany przez nas, należy wybrać opcję „Pobierz i zainstaluj pakiet językowy” i cierpliwie poczekać. Po zakończeniu tego procesu należy ustawić opcję „Niech to będzie język domyślny” i pozwolić na wylogowanie z komputera. Po ponownym zalogowaniu domyślny język będzie już zmieniony.

Teraz konieczne jest przejście do ekranu głównego (kafelkowego) Windows 8, wpisanie „Windows Speech Recognition” i wciśnięcie klawisza Enter. W ten sposób możliwe będzie uruchomienie narzędzi rozpoznawania głosu. Po uruchomieniu tej aplikacji pierwszy raz zaproponuje ona rozpoczęcie samouczka. Trwa on aż około 15-20 minut, ale jest bardzo przydatny i omawia podstawy używania tej funkcjonalności systemu Windows 8. Oprócz tego ma on bardzo ważną funkcję – dzięki niemu system po raz pierwszy dowiaduje się, w jaki sposób mówimy i dopasowuje do nas swój algorytm. Kolejna funkcja samouczka to zapoznanie nas z podstawowymi komendami. Tak naprawdę na początku warto pamiętać, że jeśli chcemy, by komputer nas zaczął słuchać, musimy powiedzieć „Start listening”, a gdy chcemy, by nie reagował na nasz głos „Stop listening”. Jeśli nie pamiętamy innych komend i chcemy je sobie przypomnieć, wystarczy powiedzieć „What Can I Say?”.

Wszystkie komendy są bardzo krótkie, intuicyjne i używa się ich bardzo łatwo, jeśli oczywiście ma się trochę wprawy i zna się język angielski (lub inny wspierany przez tę funkcję). Jest ich jednak na tyle dużo, że postanowiliśmy ich tutaj nie wypisywać, tylko polecić wejście na tę stronę, gdzie znajdują się wszystkie polecenia i są odpowiednio opisane. Oczywiście cała witryna jest w języku angielskim. Jeżeli nie wiemy, w jaki sposób wymówić dany zwrot, proponujemy skorzystać z narzędzia Google Translate, tam wpisać interesujące nas słowa i kliknąć ikonkę głośnika znajdującą się na dole. Wówczas zostaną one w poprawny sposób odczytane przez lektora.

Jeśli po pewnym czasie korzystania z rozpoznawania mowy uważamy, że komputer za słabo identyfikuje wypowiadane słowa, należy go ich nauczyć. W tym celu należy na ekranie głównym wpisać „Speech Recognition”, na pasku obok wybrać opcję „Settings” i kliknąć pierwszą wyświetloną opcję. Teraz pojawi się okno, w którym należy wybrać opcję „Train your computer to better understand you”. Po pojawieniu się okna konieczne będzie przeczytanie tekstu lub kilku długich tekstów, dzięki czemu komputer pozna nasz akcent oraz nawyki językowe.

Co umożliwia sterowanie głosem?

Musimy przyznać, że podchodziliśmy do tej funkcji systemu Windows 8 z dużym sceptyzmem, ale bardzo miło nas zaskoczyła. Pozwoliła na przewijanie stron internetowych oraz komfortowe korzystanie z intefejsu kafelkowego. System bez problemu instalował i uruchamiał aplikacje z angielskimi nazwami, takie jak „Video”, „Skype” czy „SkyDrive”, ale w ogóle nie pozwalał na uruchamianie polskich aplikacji, nawet jeśli miały angielsko brzmiące nazwy. Próba uruchomienia ipli kończyła się niepowodzeniem niezależnie od tego czy wymawialiśmy jej nazwę naturalnie (ipla) czy w sposób zangielszczony (ajpla). Wyjątkowo przydatna okazało się polecenie „Show Numbers”, która zastępuje wszystkie kontrolki klawiszami z cyframi. Dzięki temu nie ma konieczności wymyślania trudnych nazw różnych opcji i zastanawiania się, czy komputer łaskawie odczyta nasze polecenie. Wystarczy po prostu podać kontrolkę, która nas interesuje i zatwierdzić ją krótkim „OK”. Rozpoznawanie mowy nie będzie przydatne w codziennych warunkach, ale z całą pewnością będzie je można uznać za użyteczne w kilku sytuacjach. Jedną z nich jest podłączenie laptopa do telewizora i brak chęci do wstawania do niego z łóżka w celu zmiany jednej czy dwóch opcji. Rozpoznawanie mowy doskonale zastępuje tu pilota.

Używając tej funkcji możliwe było też dyktowanie tekstu, ale tylko w języku angielskim. Istnieje możliwość wypowiadania całych słów, zaznaczania, poprawiania ich, dyktowania litera po literze oraz przenoszenia kursora przed lub za dane słowo. Można zaznaczać i usuwać nie tylko wyrazy, ale też całe zdania. Gdy dodamy do tego, że trzeba wyraźnie mówić, jakiego znaku przystankowego chcemy użyć i że często konieczne jest poprawianie tak napisanego tekstu (choć to może być wina akcentu testującego), okazuje się, że najbardziej wygodną i najszybszą metodą wprowadzania tekstu do komputera jest po prostu pisanie. Mówimy tu oczywiście o tworzeniu dokumentów z poszanowaniem wszystkich zasad ortografii oraz interpunkcji. Jeżeli ktoś chciałby używać komputera do dyktowania krótkich wiadomości tekstowych, nie będzie to absolutnie żadnym problemem. Oczywiście zakładając, że chcemy to zrobić w języku angielskim. Po raz kolejny przypominamy, że rozpoznawanie mowy w Windows 8 nie jest obsługiwane w języku polskim.

Trochę historii – jak porozumiewano się z maszyną

Konfiguracja rozpoznawania mowy w Windows 8

Co umożliwia sterowanie głosem?

Witaj!