Nauka

„Ludzki poziom” rozpoznawania mowy osiągnięty

przeczytasz w 2 min.

Firma Microsoft pochwaliła się, że udało jej się osiągnąć najniższą w historii wyrazową stopę błędów przy cyfrowej transkrypcji mowy.

System Microsoftu słyszy i zna wypowiadane słowa. W najnowszym teście jego oprogramowanie do rozpoznawania mowy osiągnęło „efektywność na poziomie ludzkiego transkryptora”.

Jest nagranie wywiadu, wykładu lub jakiejkolwiek innej wypowiedzi. Trzeba przelać te słowa na papier. Na co dzień zajmują się tym profesjonalni transkryptorzy. Technologiczni giganci, tacy jak IBM czy właśnie Microsoft, starają się jednak osiągnąć ten efekt, wykorzystując oprogramowanie komputerowe. Między innymi dzięki usprawnieniu drzemiących w nim algorytmów sztucznej inteligencji firma z Redmond osiągnęła o 12 proc. lepszy wynik niż rok temu.

260 godzin nagrań pochodzących z 2400 rozmów telefonicznych pomiędzy 540 anglojęzycznymi rozmówcami – taki materiał do transkrypcji otrzymało oprogramowanie Microsoftu. Poradziło sobie dosłownie świetnie, osiągając wyrazową stopę błędu na poziomie zaledwie 5,1 proc. Najmniejszą w historii. 

WER, czyli wyrazowa stopa błędu, służy do określania skuteczności systemu rozpoznawania mowy, a zasada jest taka, że im niższa, tym lepiej. Wylicza się ją ze wzoru: (S+D+I)/N, gdzie S to liczba pomylonych słów, D – liczba pominiętych słów, I – liczba wstawionych słów, a N – liczba wszystkich słów. Dotychczasowy rekord należał do firmy IBM, której Watson mógł pochwalić się WER na poziomie 5,5 proc.

Po co nam w ogóle taka technologia? Niektórzy widzą w niej przede wszystkim szansę na udoskonalenie narzędzi do inwigilacji. Jeśli jednak odsunie się takie scenariusze, to wyłoni się wizja komputerów i urządzeń mobilnych, z którymi można by się bez większych problemów komunikować za pomocą głosu (na poziomie znacznie wyższym niż oferują obecny asystent Google czy Siri od Apple). 

Oprócz takiej bezpośredniej komunikacji, systemy rozpoznawania mowy mogą także uzupełnić usługi konsumenckie (takie jak chatboty). Wizja rozmowy z konsultantem, który zawsze ma dobry dzień i w każdym przypadku wie, jak pomóc, wydaje się naprawdę ciekawa. 

Jednak droga do doskonałego cyfrowego transkryptora jest długa. I choć nie można odmówić sukcesu firmie Microsoft, to trzeba wziąć pod uwagę, że jej system radzi sobie dobrze tak długo, jak ma do czynienia z tradycyjną rozmową. Tymczasem człowiek jest w stanie lepiej lub gorzej zrozumieć kilka osób wypowiadających się na przykład podczas imprezy. Osiągnięcie takiego poziomu byłoby prawdziwym przełomem. Na to jednak wciąż musimy czekać.

Na koniec jeszcze małe sprostowanie, słuszność określenia „efektywności ludzkiego transkryptora” na poziomie 5,1 proc. jest dyskusyjna. Niektórzy naukowcy się z tym zgadzają, inni – nie (twierdząc, że to tylko marketingowy zabieg tych, którzy chcą, by ich dzieła dorównywały ludziom). Jest zbyt wiele czynników, by rozstrzygnąć tę kwestię jednoznacznie. Czy jednak jest to faktycznie „ludzki poziom”, czy nie – sukces jest niezaprzeczalny.

Źródło: Microsoft Research AI, The Register. Ilustracja: coffeebeanworks/Pixabay

Komentarze

14
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    Marucins
    3
    To kiedy ta Cortana po Polsku?
    • avatar
      mesjan
      1
      Zawód telemarketera zniknąłby, zamieniłyby go gadające komputery.
      • avatar
        Bartek Żak
        0
        Nie wiem czy artykuł nie wybiegł trochę do przodu. Mowa jest głównie o "zrozumieniu" mowy i zamianie na tekst. A kwestia interpretacji zdania oraz konstruowania odpowiedzi to już inny temat. Powyższe osiągnięcie sprawi raczej, że komendy, nadal proste, będą lepiej "rozumiane" przez telefon/samochód, przez co będziemy mniej sfrustrowani, bo urządzenie źle nas zrozumiało. Wystarczy obejrzeć odcinki Top Geara gdzie bawili się komendami głosowymi w samochodzie. Przeważnie samochód rozumiał co chciał.
        • avatar
          Massai
          -1
          Moim zdaniem rozpoznawanie mowy, tylko takie prawdziwe byłoby takim krokiem w tworzeniu interfejsów jak wymyślenie myszki komputerowej.
          Tylko żeby było PO POLSKU, bo to że komputer rozumie angielski to niech sobie w d. wsadzą.
          Póki co myślę po polsku - co z tego że potrafię to powiedzieć po angielsku. Jak mam się tak zastanowić, to wolę zapisać.
          A rozpoznawanie mowy to milion zastosowań. Lekarz - zamiast samemu zapisywać wyniki badania, czy dyktować sekretarce i potem sprawdzać - ciach, rozpoznało i gotowe.
          Prawnik. Handlowiec. I tak bez końca.
          • avatar
            darioz
            -2
            Do Star Trekowego rozpoznawanie mowy wciąż jeszcze daleko! W Star Treku nie trzeba znać żadnego języka a rozumie się mowę nie tylko ludzi ale i wszystkich kosmituf z federacji!
            A nawet Star Trekowy translator potrafi rozpoznać mowę kosmituf których np załoga Enterprise spotyka pierwszy raz!