Pixel Recursive Super Resolution - ludzka intuicja w widzeniu maszyn (sonda i test)

9 lutego 2017przeczytasz w 3 min.

Google pracuje nad algorytmem PRSR, który wykorzystuje elementy Sztucznej Inteligencji do zwiększania rozdzielczości przez inteligentną interpolację.

Interpolacja to narzędzie, które często jest wykorzystywane do zwiększania rozdzielczości zdjęć. Jednak zwykle oznacza to nic ponad wygładzenie interpolowanych krzywych, które pozwalają z większej odległości postrzegać zdjęcie jako pozbawione efektu pikselizacji, który występuje przy standardowym powiększaniu obrazu.

Google pracuje nad mechanizmem, który nazywa się Pixel Recursive Super Resolution (PRSR). Jego przeznaczeniem jest podniesienie rozdzielczości w inteligentny sposób, czyli tak by „wymyślone” przez oprogramowanie brakujące elementy nie były jedynie matematyczną interpolacją brakujących elementów, ale przybliżeniem faktycznego obrazu.

Porównanie z ludzkim widzeniem

Efekty działania tego algorytmu można zobaczyć na poniższym obrazku. Pierwsza kolumna to zdjęcie twarzy o rozdzielczości 8x8 pikseli, które wprowadzono do narzędzia PRSR. Druga kolumna to wygenerowane przez to narzędzie obrazy o rozdzielczości 32x32 piksele, czyli o 16 razy większej liczbie pikseli niż oryginał. Trzecia kolumna to oryginał, czyli to czego oczekiwalibyśmy od idealnie funkcjonującego algorytmu.

Google Pixel Recursive Super Resolution

Jaki tu mamy związek z ludzkim widzeniem. Człowiek przez całe życie zbiera i magazynuje w pamięci różne informacje, między innymi obrazy. Gdy natrafi na obraz o niewielkiej rozdzielczości stara się zgadnąć jak wyglądałby gdyby był lepszej jakości. Dlatego tak łatwo nam domyślić się, że na zdjęciu ta mała postać to w istocie konkretna osoba.

Reprezentująca ją grupa pikseli dla zwykłego algorytmu rozpoznawania twarzy czy postaci stanowi niewiele znaczący zlepek informacji. Ale nie dla Google PRSR. Nie będziemy się tu skupiali nad matematyką jaka dokładnie stoi za tym algorytmem, zainteresowanych odsyłam do szczegółowego artykułu, ale spróbujcie wykonać mały eksperyment.

Można w nim użyć pokazanych powyżej zdjęć, ale najlepiej byłoby gdyby ktoś przygotował nam zdjęcie 8x8 pikseli z twarzą, której się nie spodziewamy ujrzeć. Możecie wykorzystać poniższe przykłady.

Twarz 8x8 pikseli przykład 1 Twarz 8x8 pikseli przykład 2

Twarz 8x8 pikseli przykład 2 Twarz 8x8 pikseli przykład 4
Te zdjęcia wykorzystaj do odpowiedzi w sondzie

Wyświetlmy sobie każde ze zdjęć na pełnym ekranie. Z bliska będzie to raczej nic nie sugerująca zbieranina pikseli. Teraz oddalcie się od monitora, zmrużcie najlepiej oczy i jeszcze raz zastanówcie się co, a raczej kogo widać.

Nie będzie to wystarczająco dobry obraz by w każdym przypadku wywnioskować jaką osobę pokazuje zdjęcie, ale z pewnością będziecie mieli już dużo więcej podejrzeń. Dodam, że są to znane postacie.

I tak samo jak nasz umysł jedynie tworzy podpowiedź, tak wynik działania algorytmu Google PRSR jest jedynie sugestią. Silną przesłanką, czasem dokładniejszą niż to co podpowiada nam nasz mózg, ale nadal nie taką, która pozwala tak uzyskane powiększenie obrazu uznać za stuprocentowo pewne.

Czy będzie tak jak w filmach SF?

Filmy science-fiction obfitują w sceny, w których bohater powiększa i skaluje zdjęcie ukazując wcześniej nie widziane szczegóły. Padają rozkazy, „powiększ, jeszcze, jeszcze więcej”, które zdają się nie mieć końca. Tak jak końca nie mają zdolności stosowanych algorytmów skalujących. Ale bądźmy szczerzy, pewnych granic nie da się przeskoczyć, tak jak z obrazu 8x8 pikseli nie wywnioskujemy, że fotografowana osoba ma plombę w dolnej szóstce, ani tego jaki faktycznie numer rejestracyjny widnieje na tablicy samochodu.

W przypadku filmów są zresztą stosowane niedomówienia, które pozwalają widzowi puścić wodze jego własnej fantazji. Na przykład można założyć, że skalowane obrazy są skalowane z wykorzystaniem dodatkowych pomocniczych informacji, których zafascynowany tym co widzi na ekranie widz nie bierze pod uwagę. Sama informacja o kolorze i jasności zawarta w pikselach to za mało danych.

Do pewnego stopnia tak też dzieje się w przypadku algorytmu Google. Nie stara się on wywnioskować w grupy 64 pikseli co pokazują, analizując wszystkie możliwe rozwiązania. Wykorzystuje on matematycznie skonstruowaną podpowiedź, która zakłada, że powiększony obraz będzie reprezentował ludzką twarz.

To ograniczenie, ale zakładając, że obraz 8x8 pikseli jest wycinkiem w większego obrazu na którym można przewidzieć co pokazuje dana grupa pikseli, wcale nie tak duże.

Zespół Google Brain

W tekście wspominam o pracach Google, ale by być precyzyjnym, prace nad PRSR to dzieło zespołu Google Brain. To ekipa ludzi, których celem jest zaszczepienie komputerom ludzkiej intuicji w różnych dziedzinach postrzegania. W sposób, który pozwoli praktyczniej wykorzystywać nabytą przez maszyny inteligencję w naszym codziennym życiu.

Członkowie zespołu Google Brain mają sporą swobodę w doborze tematyki i planowaniu badań. Każdy z nas na co dzień korzysta z efektów pracy tego zespołu. Sięgając po wyszukiwarkę Google, narzędzia stosowane w Google Photos, Maps, Translate, Youtube czy Gmailu.

Źródło: Google Brain, inf. własna

Komentarze

Zaloguj się, aby skomentować

Konto usunięte
2017-02-0919:12
3
Google meets CSI.
HomeAudio
2017-02-0919:25
2
Sonda tym razem wyjątkowo interesująca... mimo że na zdjęciach wygląda na to że są dwie różne kobiety (w ujęciu maszyny i faktyczne zdjęcie) - to ja bym jednak dał odpowiedź że mamy do czynienia z czterema różnymi kobietami. To co sztuczna inteligencja sobie dopowiedział - dla mnie to dwa nowe twory wirtualne (obrazy kobiet) nie mające większego związku z oryginalnym zaprezentowanym osobnikiem płci żeńskiej. Niestety ludzie są do siebie podobni... i czasami tylko drobne różnice nas odróżniają. Moja odpowiedź w sondzie to: 4 ;)
apuk666
2017-02-0923:17
2
1- kobieta (wychodzą spore oczy, makijaż) 2,3- facety jakieś, bo na tych zdjęciach makijażu raczej nie widać. Ostatnie to jak nic Darth Vader xD. Przydały by się jeszcze konkrety co do osób, jednak nie mam czasu...

Aquagen
2017-02-0920:23
1
W sondzie dałem odpowiedź 1.

Może pójdźmy jeszcze dalej i zgadujmy kogo przypominają nam te obrazy i może niech za 1-2 dni autor artykułu pochwali się kogo przedstawiały. Może trochę wyjdzie nam taki benchmarkowy test Rorschacha ;-)

W kolejności: góra lewo, góra prawo, dół lewo, dół prawo:
GL - Alicia Vikander
GP - Barack Obama
DL - Donald Trump
DP - Darth Vader
spocco
2017-02-0920:26
1
Na 1 i 4 widać kobiety, na 2 i 3 mężczyzn. Tak ja to widzę :)