OpenAI już jest z nami prawie dekadę. Model głosowy oparty na nim natomiast rozwijany jest od końca 2022 roku i możemy go spotkać chociażby w ChatGPT. Narzędzie niedawno zostało ulepszone pod względem wymagań co do próbki głosu.

OpenAI udostępniło (w ograniczonej formie) możliwość skorzystania z opracowanej przez siebie platformy text-to-voice o nazwie Voice Engine, która w najnowszej odsłonie może wygenerować głos na podstawie zaledwie 15-sekundowego nagrania audio. Głos generowany przez sztuczną inteligencję jest w stanie odczytać komunikaty tekstowe nie tylko w tym samym języku co osoba mówiąca, ale również w innych.

Mamy nadzieję rozpocząć dyskusję na temat odpowiedzialnego wykorzystania głosów syntetycznych oraz sposobów przystosowania się społeczeństwa do tych nowych możliwości. Na podstawie (...) testów na małą skalę podejmiemy bardziej świadomą decyzję o tym, czy i jak wdrożyć tę technologię na dużą skalę.

– stwierdził zespół OpenAI w swoim poście na blogu.

Do firm mających dostęp zalicza się firma zajmująca się technologiami edukacyjnymi Age of Learning, platforma do wizualnego opowiadania historii HeyGen, czołowy producent oprogramowania zdrowotnego Dimagi, twórca aplikacji do komunikacji AI Livox i system opieki zdrowotnej Lifespan.

W tych próbkach opublikowanych przez OpenAI można usłyszeć, co Age of Learning zrobiło z technologią generowania wcześniej skryptowanych treści lektorskich, a także odczytywania dla ich studentów napisanych przez GPT-4 „spersonalizowanych odpowiedzi w czasie rzeczywistym”.

OpenAI Voice Engine - od 1:58 zaprezentowano, co potrafią nowe algorytmy AI

Na podstawie tych próbek można zauważyć, z jaką łatwością najnowsze algorytmy opracowane przez OpenAI radzą sobie z płynnym generowaniem głosu. Generowanie tekstu na dźwięk przez sztuczną inteligencję to obszar AI, który stale ewoluuje. Podczas gdy większość firm skupia się na dźwiękach instrumentalnych lub naturalnych, to amerykańskie laboratorium badawcze wchodzi na grunt, który ostatnio wzbudza coraz większe kontrowersje.

Rząd USA stara się ograniczyć nieetyczne wykorzystanie technologii głosowej AI. W zeszłym miesiącu Federalna Komisja Łączności zakazała wykonywania automatycznych połączeń wykorzystujących głosy sztucznej inteligencji po tym, jak ludzie otrzymywali połączenia spamowe od „Joe Bidena” (a raczej jego głosu), wygenerowanego przez sztuczną inteligencję.

Według OpenAI jego partnerzy zgodzili się przestrzegać zasad użytkowania, które mówią, że nie będą używać ich narzędzia do podszywania się pod osoby lub organizacje bez ich zgody. Wymaga to również od partnerów uzyskania „wyraźnej i świadomej zgody” pierwotnego mówcy, a nie tworzenia sposobów dla indywidualnych użytkowników na tworzenie własnych głosów i ujawniania słuchaczom, że głosy są generowane przez sztuczną inteligencję. OpenAI dodało także znak wodny do klipów audio, aby śledzić ich pochodzenie i aktywnie monitorować sposób wykorzystania dźwięku.

OpenAI zasugerowało kilka kroków, które jego zdaniem mogłyby ograniczyć ryzyko związane z takimi narzędziami, w tym wycofywanie uwierzytelniania głosowego w celu uzyskania dostępu do kont bankowych, zasady ochrony wykorzystania głosu ludzi w sztucznej inteligencji, zwiększenie nakładów na edukację na temat deepfakes AI i rozwój systemów śledzenia treści AI. Czas pokaże, czy to będzie wystarczające.

Źródło: The Verge