Sprawdziłem nowy generator obrazów w ChatGPT. Poprawę widać gołym okiem
Firma OpenAI zaprezentowała nową wersję swojego generatora obrazów - GPT Image 1.5. Ten trafił już do ChatGPT.
Duże modele językowe OpenAI dotychczas bardzo dobrze radziły sobie z tworzeniem zupełnie nowych obrazów na podstawie słownych opisów, ale w mojej ocenie ustępowały konkurencji, gdy chodzi o edycję już istniejących zdjęć. Przykładowo po poleceniu zmiany koloru ubrania osoby na fotografii, GPT Image 1 miał tendencję do wprowadzania niechcianych modyfikacji innych obiektów w kadrze, w tym twarzy i tła.
Twórcy obiecują, że GPT Image 1.5 został zoptymalizowany pod kątem selektywnej edycji. Co najpewniej jest odpowiedzią na model Nano Banana Pro w Google Gemini, którego jedną z najmocniejszych stron jest właśnie edycja. Sprawdziłem i faktycznie - jest duuużo lepiej.
ChatGPT zdecydowanie lepiej radzi sobie teraz z edycją zdjęć
Nowy model GPT Image 1.5 oraz starszy GPT Image 1 porównałem ze sobą korzystając z narzędzie LMArena.
Test 1 - selektywna edycja zdjęcia
Do obu modeli załadowałem własne zdjęcie i poprosiłem o jego edycję.
Prompt: "Zmień telefon na pomarańczowego iPhone'a 17 Pro, skierowanego tyłem w stronę kamery. Zmień bluzę na niebieską z logo Jurassic Park. Nie zmieniaj proporcji i reszty kadru".
GPT Image 1.5 (po lewej) i GPT Image 1 (po prawej)
Starszy model GPT Image 1 całkowicie zmienił moją twarz, podczas gdy GPT Image 1.5 faktycznie zmodyfikował tylko tylko te fragmenty, które miał. Jednocześnie oba modele - wbrew poleceniu - zmieniły nieco proporcje grafiki i nie dały rady odwzorować prawidłowo wyglądu iPhone’a 17 Pro, mimo że ten jest dostępny na rynku od 3 miesięcy. Niemniej poprawa z generacji na generację jest astronomiczna.
Test 2 - poprawa jakości zdjęcia
Do obu modeli załadowałem klatkę z pierwszego filmu youtuberki iJustine z 2006 roku.
Prompt: "Popraw jakość, nie zmieniaj proporcji i nie ingeruj w rozkład elementów w kadrze".
GPT Image 1.5 (po lewej) i GPT Image 1 (po prawej)
Grafika z GPT Image 1 ma mocno sztuczną stylistykę i model nie trzymał się polecenia, bo zmienił chociażby układ palców pod miską. GPT Image 1.5 dorobił masę brakujących szczegółów, ale zachował naturalnie wyglądające niedoskonałości i ogólny klimat zdjęcia. Zwycięstwo przez nokaut.
Test 3 - wklejenie zrzutu ekranu na zdjęcie
Do obu modeli załadowałem zrzut ekranu strony głównej benchmark.pl i poprosiłem o wygenerowanie prostego mockupu.
Prompt: "Umieść ten zrzut ekranu na wyświetlaczu laptopa stojącego na biurku. Niech ekran laptopa wypełnia większość kadru. Proporcje zdjęcia 16:9".
GPT Image 1.5 (po lewej) i GPT Image 1 (po prawej)
GPT Image 1 całkowicie zmasakrował zawartość screenshota, modyfikując wszystkie umieszczone na nim elementy graficzne i zmieniając napisy w nieczytelną papkę. GPT Image 1.5 poradził sobie natomiast z poleceniem dużo lepiej, choć też nie idealnie, bo zmienił słowo "wybrać" na "wjbrać".
GPT Image 1.5 dla wszystkich w ChatGPT
OpenAI poinformowało, że nowy model jest stopniowo udostępniany wszystkim użytkownikom ChatGPT, w tym planu darmowego. Przy okazji firma zmieniła interfejs witryny ChatGPT.com/Images.
Twórcy deklarują, że GPT Image 1.5 działa także nawet cztery razy szybciej od poprzednika, choć akurat na tym polu nie odnotowałem póki co znaczącej poprawy.
