Microsoft uczy komputery słuchać poleceń

10 grudnia 2010przeczytasz w 3 min.

Autor:Tomasz

Microsoft zaprezentował specyfikację powstającego systemu rozpoznawiania mowy, który aktywnie nasłuchuje dźwięków otoczenia i potrafi wyróżnić w nich komendy głosowe będące poleceniami dla systemu operacyjnego.

Nowy projekt o nazwie "conversational understanding" (rozumienie konwersacji, CU) to część strategii firmy opartej na nowych, naturalnych interfejsach. Technologia wykorzystuje wiele zaawansowanych osiągnięć inżynierii komputerowej, jak choćby rozpoznawanie mowy z wykorzystaniem słownika, analiza struktur gramatycznych oraz systemów uczących się (ang. machine learning). Dzięki temu nowy system jest w stanie reagować, korzystając ze złożonej wiedzy i różnorodnych algorytmów. Jaką korzyść mogą z tego odnieść potencjalni użytkownicy?

Warto przeczytać:

Microsoft: Kinect to dopiero początek

Google chce wyszukiwać zanim zapytasz

Wyszukiwarka Google pod lupą UE

Zig Serafin, przewodniczący zespołu Microsoftu zajmującego się przetwarzaniem mowy, tak komentuje swój projekt:

"Wszystko, nad czym do tej pory pracowaliśmy, obraca się wokół problemu zrozumienia, co mówią ludzie. Można to porównać do osoby obdarzonej dobrym słuchem. Czy zdoła ona usłyszeć, co mówi drugi człowiek za rogiem budynku, w ulicznym zgiełku? I czy zareaguje w oczekiwany sposób?"

Otóż okazuje się, że proste rozpoznawanie mowy w rzeczywistych sytuacjach jest niewystarczające: "Jesteśmy bliscy nauczenia maszyny rozpoznawania zmieniającej się sytuacji. Musimy tylko połączyć wszystkie te elementy z mózgiem systemu."

Funkcjonalność technologii zapewni rozbudowana infrastruktura oraz szereg rozwiązań, którymi dysponuje Microsoft. Można rozpoznać tu takie znajome nazwy, jak TellMe, usługa Bing 411 wraz z aplikacją mobilną umożliwiającą wyszukiwanie za pomocą głosu, podobna funkcja obecna w Windows Phone 7, oraz Sync przeznaczony między innymi do samochodów. Ostatnio mogliśmy spotkać się z takimi rozwiązaniami również w konsoli Kinect, w której po raz pierwszy zaimplementowano system ciągłego nasłuchu, bez konieczności uruchamiania mikrofonu przyciskiem.

Zasada działania większości systemów opiera się na rozpoznawaniu komend głosowych wydawanych przez użytkownika, a następnie kierowaniu ich do chmury, która określa ich znaczenie. Jednak w przypadku prostych komend, takich jak "włącz utwór x" lub "zadzwoń do mamy", można je przetwarzać lokalnie. Jeśli jednak polecenie jest bardziej złożone, trzeba połączyć się z serwerami Microsoftu.

Nowością wprowadzaną w CU jest dołączenie do pakietu dużej porcji danych okreslających kontekst - stron internetowych lub własnych zasobów użytkownika, by lepiej zrozumieć, o co tak naprawdę on prosi.

XBox360 oferuje rozpoznawanie mowy dzięki wbudowanym mikrofonom Kinect, a także usuwaniu szumów pochodzących od uruchamianych gier i aplikacji.

"Aby zaimplementować rozumienie kontekstu, nie wystarczają same algorytmy wyszukiwania." - tłumaczy Ilya Bukshteyn, dyrektor działu marketingu TellMe, firmy przejętej przez Microsoft w 2007 roku, a następnie włączonej do projektu przetwarzania mowy. "Zrozumienie intencji wyszukiwania to w istocie klucz do rozwiązania problemu, ważniejszy niż proste znalezienie danych. Łatwo dostępnych jest bardzo wiele użytecznych informacji, które można przeanazlizować, a następnie udzielić podpowiedzi zgodnej z preferencjami uzytkownika." Bukshteyn podaje za przykład pomoc w organizacji obiadu dla dwóch osób, korzystając z kalendarza, rankingu restauracji i map internetowych. Bardzo przypomina to koncepcję zaprezentowaną niedawno przez Google.

Serafin dodaje: "Aby jednak wszystko to było możliwe, konieczne jest wpierw rozpoznanie wydanego polecenia. Normalnie do wykonania tego rodzaju zadania wymagane było manualne wpisanie zapytania oraz wykorzystanie różnych funkcji wielu aplikacji. Przyszłe rozwiązania uwolnią użytkowników od tej konieczności i będą dla nich stanowiły pomoc, rodzaj asystenta. Praktyczna implementacja technologii oparta na tych założeniach jest już w drodze, więcej informacji juz wkrótce."

Zatem pozostaje nam tylko czekać na nowe informacje.

Źródło: Cnet

Polecamy artykuły:
Poradnik świąteczny	MEGATEST: wydajne laptopy i poręczne netbooki	Jabłko czy gruszka? Test iPada z iOS 4.2

Komentarze

Zaloguj się, aby skomentować

Konto usunięte
2010-12-1019:09
0
I biada jak ktoś pracuje z uprawnieniami administratora i mu do pokoju wparuje dziecko plotąc coś po swojemu ;-)
Qazzy
2010-12-1019:42
0
jak będzie działać tak jak rozpoznawanie mowy w office to ja podziękuję... (filmik np tu: http://www.youtube.com/watch?v=Vs6zW4zP83c )
Konto usunięte
2010-12-1019:57
0
No i coś takiego powinno zostać wprowadzone już od Win 7 - ale bez przetwarzania w chmurce (bo oczywiście nie ufam takim zabiegom - co jeszcze chcą wiedzieć ? Dźwięk, obraz, co oglądam lub w co gram... NO WAY !) a tylko i wyłącznie przez nasz komputer ! Nasz PC-et powinien tez potrafić odpowiedzieć nie tylko stosownym komunikatem na ekranie, ale przede wszystkim głosem :)
Gesty rąk powinny zostać wprowadzone wraz z nadejściem Win 8 Technologie już mają - Kinect :)

Wtedy wiedziałbym za co płace przy kupnie nowego okienka :)

Życie trzeba ułatwiać a nie komplikować ;)

Konto usunięte
2010-12-1020:39
0
heh za 10 lat ze zdenerwowania powiesz k***a i komputer sam wyszuka co to jest w googlach :D
Konto usunięte
2010-12-1110:41
0
O rzesz ty...! Jeszcze trochę a trzeba będzie się dogadywać ze swoim PC by nie puszczał pary z gęby przed żoną lub dziewczyną z kim człowiek czatował lub na jakich stronkach bywał ;)