
Sprawdziłem nowy generator obrazów w ChatGPT. Poprawę widać gołym okiem
Firma OpenAI zaprezentowała nową wersję swojego generatora obrazów - GPT Image 1.5. Ten trafił już do ChatGPT.
Duże modele językowe OpenAI dotychczas bardzo dobrze radziły sobie z tworzeniem zupełnie nowych obrazów na podstawie słownych opisów, ale w mojej ocenie ustępowały konkurencji, gdy chodzi o edycję już istniejących zdjęć. Przykładowo po poleceniu zmiany koloru ubrania osoby na fotografii, GPT Image 1 miał tendencję do wprowadzania niechcianych modyfikacji innych obiektów w kadrze, w tym twarzy i tła.
Twórcy obiecują, że GPT Image 1.5 został zoptymalizowany pod kątem selektywnej edycji. Co najpewniej jest odpowiedzią na model Nano Banana Pro w Google Gemini, którego jedną z najmocniejszych stron jest właśnie edycja. Sprawdziłem i faktycznie - jest duuużo lepiej.
ChatGPT zdecydowanie lepiej radzi sobie teraz z edycją zdjęć
Nowy model GPT Image 1.5 oraz starszy GPT Image 1 porównałem ze sobą korzystając z narzędzie LMArena.
Test 1 - selektywna edycja zdjęcia
Do obu modeli załadowałem własne zdjęcie i poprosiłem o jego edycję.
Prompt: "Zmień telefon na pomarańczowego iPhone'a 17 Pro, skierowanego tyłem w stronę kamery. Zmień bluzę na niebieską z logo Jurassic Park. Nie zmieniaj proporcji i reszty kadru".


Starszy model GPT Image 1 całkowicie zmienił moją twarz, podczas gdy GPT Image 1.5 faktycznie zmodyfikował tylko tylko te fragmenty, które miał. Jednocześnie oba modele - wbrew poleceniu - zmieniły nieco proporcje grafiki i nie dały rady odwzorować prawidłowo wyglądu iPhone’a 17 Pro, mimo że ten jest dostępny na rynku od 3 miesięcy. Niemniej poprawa z generacji na generację jest astronomiczna.
Test 2 - poprawa jakości zdjęcia
Do obu modeli załadowałem klatkę z pierwszego filmu youtuberki iJustine z 2006 roku.
Prompt: "Popraw jakość, nie zmieniaj proporcji i nie ingeruj w rozkład elementów w kadrze".


Grafika z GPT Image 1 ma mocno sztuczną stylistykę i model nie trzymał się polecenia, bo zmienił chociażby układ palców pod miską. GPT Image 1.5 dorobił masę brakujących szczegółów, ale zachował naturalnie wyglądające niedoskonałości i ogólny klimat zdjęcia. Zwycięstwo przez nokaut.
Test 3 - wklejenie zrzutu ekranu na zdjęcie
Do obu modeli załadowałem zrzut ekranu strony głównej benchmark.pl i poprosiłem o wygenerowanie prostego mockupu.
Prompt: "Umieść ten zrzut ekranu na wyświetlaczu laptopa stojącego na biurku. Niech ekran laptopa wypełnia większość kadru. Proporcje zdjęcia 16:9".


GPT Image 1 całkowicie zmasakrował zawartość screenshota, modyfikując wszystkie umieszczone na nim elementy graficzne i zmieniając napisy w nieczytelną papkę. GPT Image 1.5 poradził sobie natomiast z poleceniem dużo lepiej, choć też nie idealnie, bo zmienił słowo "wybrać" na "wjbrać".
GPT Image 1.5 dla wszystkich w ChatGPT
OpenAI poinformowało, że nowy model jest stopniowo udostępniany wszystkim użytkownikom ChatGPT, w tym planu darmowego. Przy okazji firma zmieniła interfejs witryny ChatGPT.com/Images.
Twórcy deklarują, że GPT Image 1.5 działa także nawet cztery razy szybciej od poprzednika, choć akurat na tym polu nie odnotowałem póki co znaczącej poprawy.










Komentarze
0Nie dodano jeszcze komentarzy. Bądź pierwszy!