Sztuczna inteligencja Gemini otrzymała nową funkcję, dzięki której możesz edytować zdjęcia bez absolutnie żadnej wiedzy na temat obróbki grafiki.

Chatboty takie Gemini, ChatGPT czy Grok w teorii od dawna potrafią nie tylko generować nowe obrazy na podstawie słownych opisów, ale i modyfikować już istniejące zdjęcia. W praktyce jednak efekty są często niezgodne z oczekiwaniami.

Sposób działania dużych modeli językowych sprawia, że te niechętnie modyfikują wskazane fragmenty obrazu, a zamiast tego mają tendencję do generowania całego kadru od zera. Jeśli np. wrzucisz swoje selfie i poprosisz sztuczną inteligencję o zmianę koloru koszulki, istnieje duże ryzyko, że AI przy okazji podmieni twoją twarz i elementy w tle. A przynajmniej tak to wyglądało do tej pory.

Edycja zdjęć w Google Gemini doczekała się właśnie dużego uaktualnienia

Google ogłosił, że aplikacja Gemini została właśnie uzbrojona w nowy model generowania obrazów, stworzony przez zespół DeepMind. Sztuczna inteligencja ma teraz lepiej radzić sobie z modyfikacją jedynie wskazanych obszarów, bez ingerowania w ludzkie twarze czy zwierzęta.

Sprawdziłem nową funkcję Gemini na kilku różnych scenariuszach użycia i efekty są znaaacznie lepsze niż dotychczas. Niżej przykłady zdjęć przed edycją i po niej, wraz z użytymi promptami.

"Zmień koszulkę na niebieską koszulę w kratę. Na głowie umieść brązowy kapelusz kowbojski z wyhaftowanym napisem benchmark.pl":

"Umieść na zdjęciu realistycznie wyglądającego lwa trzymanego na smyczy":

"Zmień kolor włosów na siwy. Niech włosy będą długie i proste":

"Zmień tło. Niech ludzik stoi na czarnym, lustrzanym blacie":

"Przerób to zdjęcie na studyjny portret z profesjonalnym oświetleniem i retuszem":

"Umieść tego mężczyznę i tego psa na jednym zdjęciu. Spacer po Central Parku w Nowym Jorku. Niech mężczyzna trzyma smycz z psem":

Oczywiście słowne polecenia dają mniejszą kontrolę nad obrazem niż zaawansowane oprogramowanie do edycji grafiki, dlatego Gemini niekoniecznie zastąpi Photoshopa w zastosowaniach profesjonalnych. Zwłaszcza że sztucznej inteligencji wciąż zdarzają się niedociągnięcia, bo przykładowo na pierwszym zdjęciu wygenerowała napis "banchmark" zamiast "benchmark".

Jeśli jednak chodzi o zastosowania amatorskie, to w mojej ocenie Gemini już teraz sprawdza się w wielu potencjalnych scenariuszach użycia, takich jak edycja zdjęcia profilowego na serwis społecznościowy, zmiana tła na fotografii sprzedawanego przedmiotu czy modyfikowanie grafik na potrzeby szkolnych lub firmowych prezentacji.

Oczywiście Google właśnie znacznie ułatwił tworzenie fotomontaży, a tym samym fake newsów, ale firma pomyślała o podstawowych zabezpieczeniach. Każda przerobiona grafika ma widoczny znak wodny oraz niewidoczne cyfrowe oznaczenie SynthID, dzięki któremu aplikacje do udostępniania zdjęć dostają sygnał, że obraz został stworzony z użyciem AI.