
Zbyt nieidealne, by je odróżnić? Nano Banana Pro zadaje ważne pytania [OPINIA]
Dochodzimy do momentu, w którym grafiki generowane przez modele sztucznej inteligencji są zdecydowanie zbyt podobne do tego, co rejestrują nasze telefony. I nie jest to przypadek - w końcu sami przez lata dostarczaliśmy ogromne pokłady wiedzy.
Zasada szkolenia modeli generatywnej sztucznej inteligencji jest prosta: im więcej masz materiału treningowego, tym efektywniej możesz go wykorzystać. Im więcej masz zdjęć, filmów, grafik czy tekstu, tym lepiej jesteś w stanie wyszkolić swój model. To właśnie z tego powodu na czołowych pozycjach są firmy, które zadbały o dostęp do danych, w tym Google, czy OpenAI, które stale poszerza bazę zdjęć, chociażby dzięki dodaniu Photoshopa do ChataGPT.
Ten sam Google, który swego czasu pozwalał na zapisywanie nielimitowanej ilości zdjęć w jego chmurze pod warunkiem drobnej kompresji oraz wykorzystania ich do uczenia własnych modeli. Ten sam, który tworzy najpopularniejszy system dodatkowej weryfikacji z użyciem zdjęć - reCaptcha – z pomocą którego zaznaczamy konkretne obiekty na zdjęciach.

Przez ostatnie lata dostawaliśmy coraz bardziej zaawansowane modele generatywnej sztucznej inteligencji. Od nieśmiałych podrygów Dall-E od OpenAI, przez coraz bardziej profesjonalne narzędzie Midjourney, aż do Google Nano Banana Pro. Obecnie na rynku mamy już kilka rozwiązań dla tych, którzy z pominięciem pracy artystów i osób kreatywnych chcą realizować swoje wizje. To nie będzie rozmowa o etyczności tego procesu, a o innym, równie ważnym aspekcie, na który warto zwrócić uwagę.
Nano Banana Pro jest o krok od zmiany paradygmatu dotyczącego tego, co nazywamy zdjęciem. Od lat zdefiniowanie, co jest zdjęciem, rodzi problem, ale generatywna sztuczna inteligencja wnosi do tej dyskusji kilka niepokojących tonów.
Czym tak w zasadzie jest zdjęcie?
Przez dekady umówiliśmy się na to, że zdjęcie to obraz, który został uwieczniony techniką fotograficzną, a więc za pośrednictwem urządzeń światłoczułych, przenoszących informacje o promieniowaniu przedmiotów na matrycę. W zasadzie do większości dyskusji takie zrozumienie tematu byłoby zupełnie wystarczające, ale przez ostatnie lata coraz bardziej daje się odczuć istotność tezy sformułowanej przez teoretyka komunikacji Herberta Marshalla McLuhana: przekaźnik jest przekazem.

Współcześnie rozdźwięk między tym, co widzi ludzkie oko, a co zostaje uwiecznione jako fotografia, jest już dość znaczący. Najpopularniejsze aparaty – nasze smartfony – nie skupiają się na tym, by jak najwierniej odwzorować to, jak wygląda świat. Przynajmniej w tym sensie, że nie zależy im na stworzeniu obrazu w sposób identyczny dla ludzkiego oka. Nowoczesne matryce widzą więcej, przyjmują więcej światła i mogą w związku z tym wygenerować obrazy w znacznym stopniu przebijające to, co byłoby “zrzutem ekranu” z naszych soczewek.
Taki rozwój technologii rodzi jednak pytania o to, czy tak naprawdę zdjęcia robimy my, czy może jest to już proces całkowicie zautomatyzowany, a nam pozostaje jedynie naciśnięcie przycisku w odpowiednim momencie? W dalszym ciągu każdy poważny smartfon oferuje tryb profesjonalny. Do tego istnieje cała gama semi- oraz w pełni profesjonalnych aparatów. A jednak znakomita większość zdjęć to obrazki, w których podkręca się rozpiętość tonalną i wyostrza szczegóły tak, by nawet po znacznym przybliżeniu dało się odczytać szczegóły.
Z drugiej strony żyjemy w erze ciągłej kompresji. W mediach społecznościowych widzimy grafiki, które dla optymalizacji kosztów zostały odpowiednio zmniejszone przed ich pojawieniem się na naszych profilach. Zdjęcia pobieramy i wrzucamy ponownie, a po kilkunastu takich okrążeniach grafiki nie wyglądają tak samo. Na większości platform społecznościowych pionowe wideo zostanie skonwertowane do rozdzielczości 1080p. Do tego nawet, gdy widzimy zdjęcia o dużej rozdzielczości, to najczęściej z poziomu smartfonu jako niewielką część ekranu.

Siłą rzeczy to wszystko rodzi przestrzeń na pewne umowności. Jednak “domalowywanie” księżyca w smartfonach to nic przy tym, jak dalece zaawansowane są narzędzia pokroju Nano Banana Pro i jak bardzo kapitalizuje te umowności.
Baza zdjęć Google dała Nano Banana Pro prawdziwego kopa
Być może natknęliście się w sieci na raport Allison Johnson z The Verge, która przyjrzała się generatorowi obrazów Google nie pod kątem skomplikowanych grafik produktowych czy zdolności do tworzenia viralowych miniatur na Youtube, ale pod kątem... tworzenia grafik przypominających zdjęcia ze smartfonu.
Co symptomatyczne, prośba o wygenerowanie obrazka takiego jak zdjęcie ze smartfonu skończy się czymś... nieidealnym. Słońce nie będzie magicznie błyszczeć w narożniku niczym na rysunku kilkulatka, w cieniach nie pojawią się trudne do uchwycenia ludzkim okiem detale, a kolorystyka zbliży się do tego, co uchwycimy iPhone’ami, Samsungami i Pixelami.
Po lewej bazowe zdjęcie, po drugiej edycja jednym zdaniem
Nieidealność zdjęć jest tym, co paradoksalnie czyni je udanymi. Sprawniejsze oko zobaczy, że jeśli ktoś nie wypisze dokładnie, jak ma zachować się światło, to dodane obiekty niekoniecznie wyglądają przekonująco. Sęk w tym, że w mediach społecznościowych trzeba mocno się wysilić, by zauważyć ten rezultat. To, co dzieje się w tle takich zdjęć, nie zawsze może być dostrzeżone, zwłaszcza, jeśli ktoś nie był w danym miejscu.
Pozostaje liczyć na to, że rozwój narzędzi sztucznej inteligencji będzie także oznaczać rozwój narzędzi do weryfikacji tego, co pojawia się w sieci. O ile samodzielnie możemy oznaczać, czy dane grafiki lub wideo pochodzą z generatorów, tak większa odpowiedzialność powinna spoczywać po stronie mediów społecznościowych. Z drugiej strony – trudno spodziewać się, że taka Meta, która sama promuje aplikację Meta AI, miała interes w oznajmianiu użytkownikom, że wyświetlane obrazki są nieprawdziwe.




Komentarze
0Nie dodano jeszcze komentarzy. Bądź pierwszy!