
Zrobili generator obrazów, który "myśli". Sprawdziłem ChatGPT Images 2.0
Firma OpenAI wprowadziła drugą generację swojego modelu generowania obrazów, czyli ChatGPT Images 2.0. Jego największą zaletą jest to, że "myśli". A przynajmniej próbuje.
Według twórców, ChatGPT Images 2.0 wprowadza względem pierwszej generacji mnóstwo ulepszeń. Nowa wersja ma się charakteryzować większą precyzją i lepszą kontrolą nad generowanymi grafikami, a także silniejszym wsparciem dla generowania tekstu w językach innych niż angielski.
Użytkownicy mają również zauważyć większe wyrafinowanie stylistyczne oraz wyższy poziom realizmu w tworzonych obrazach. Model ma ponadto wykazywać lepsze zrozumienie rzeczywistego świata, stając się wszechstronnym wizualnym partnerem podczas pracy kreatywnej.
Najmocniej promowana cecha ChatGPT Images 2.0 to integracja z modelem rozumowania Thinking, dostępnym w płatnych planach ChatGPT. Podczas generowania obrazów sztuczna inteligencja ma być w stanie wyszukiwać informacje w sieci i skrupulatnie analizować dokumenty czy obrazy wejściowe, by tworzone grafiki nie tylko ładnie wyglądały, ale i miały zastosowanie praktyczne. I właśnie to postanowiłem sprawdzić.
Poniżej kilka przykładów użytych przeze mnie promptów oraz wygenerowane przez ChatGPT Images 2.0 grafiki.
Wygeneruj wizualizację tych danych sprzedażowych. Styl kreskówki z lat 30. Zmień język na polski.
Rezultat:
Z tym zadaniem ChatGPT Images 2.0 poradził sobie zaskakująco dobrze. Wizualizacja jest atrakcyjna wizualnie, a wygenerowany wykres z grubsza ma sens. Mimo że moje polecenie było nieprecyzyjne, model sam wpadł na to, by dane Apple’a okrasić kreskówkowym jabłkiem i uwzględnić wierne logotypy pozostałych marek. Sztuczna inteligencja uporała się także z wygenerowaniem polskiego tekstu i wzięła pod uwagę, że w naszym języku kropki w danych liczbowych należy zastąpić przecinkami.
Wygeneruj grafikę. Poziomy projekt eleganckiego zaproszenia na ślub (proporcje 4:3). Tło to jasny, kremowy papier o wyraźnej, szorstkiej fakturze akwarelowej. W lewym górnym i prawym dolnym rogu znajdują się delikatne, akwarelowe gałązki eukaliptusa oraz subtelne, złote plamki. Na samym środku kompozycji, wewnątrz cienkiej, złotej, geometrycznej ramki, znajduje się duży, kaligraficzny napis 'Kasia i Tomek'. Tuż pod nim, prostą, nowoczesną czcionką napisano: 'Zapraszamy na nasz ślub'. Na samym dole wyśrodkowana data: '15 sierpnia 2026'. Na zaproszeniu umieść funkcjonalny kod QR, który prowadzi do strony benchmark.pl.
Rezultat:
Stworzenie prostego zaproszenia nie stanowi wyzwania dla generatorów AI, ale w tym przypadku kluczowe było polecenie uwzględnienia funkcjonalnego kodu QR. Większość modeli w takiej sytuacji tworzy losową mozaikę, której nie da się nawet zeskanować, a ChatGPT Images 2.0 faktycznie dorzucił do grafiki kod, który działa.
Przerób to zdjęcie na pełną panoramę 360.
Rezultat:
Jednym z najpopularniejszych zastosowań generatorów obrazów jest rozszerzanie już istniejących zdjęć. ChatGPT Images 2.0 wnosi to rozwiązanie na nowy poziom, bo potrafi zmieniać zwykłe zdjęcia w 360-stopniowe. W takiej sytuacji model musi nie tylko dorobić masę brakujących szczegółów, ale i wygenerować zdjęcie w taki sposób, by wszystkie jego krawędzie się zazębiały. I faktycznie po załadowaniu wygenerowanego zdjęcia do narzędzia 360 Viewer otrzymałem idealnie sklejoną panoramę.
Wygeneruj grafikę. Okładka magazynu na podstawie artykułu "vivo X300 Ultra mną pozamiatał. Takie akcesorium powinien mieć każdy smartfon" z serwisu benchmark.pl. Wykorzystaj zdjęcie autora, ale przerób je na styl studyjny. Na okładce umieść autentyczne cytaty ze wskazanego artykułu.
Rezultat:
To zadanie zostało wykonane połowicznie. Nie mam większych zastrzeżeń do warstwy wizualnej, ale ChatGPT Images 2.0 - wbrew mojemu poleceniu - przekręcił parametry techniczne telefonu, wymyślił cytaty, a w niektórych przypadkach nawet przypisał je do zupełnie innych autorów. Podjąłem kilka prób, podając link do artykułu czy załączając go w pliku PDF, ale model wykładał się w podobny sposób za każdym razem.
Innymi słowy - ChatGPT Images 2.0 faktycznie próbuje "myśleć", ale podczas mojego testu wyszło mu to w 75 proc. przypadków. Tak działający generator obrazów faktycznie może się przydać w codziennym życiu, ale nie jest to jeszcze narzędzie, któremu można bezgranicznie zaufać.














Komentarze
9Jestem Wacław Bomba światowej sławy ekspert w dziedzinie rynku KRYPTOWALUT!!!!!!!
Ziomale mam ZAPODAJE WAM LINKACZA do aplikacza CRYPTO COM!!!
Już mowie wam co musicie zrobić!! Otóż ziomaleczki klikacie w tego linkacza, zostaniecie przekierowni do CRYPTO COM l, rejestrujexie się, przechodizxie proces KYC i rejestrujexie wąssza kartę kredytowa i już ziomaleczki możecie kupować kryptowaluteczki!!’
Ziomale jestem ekspertem ukonczylen uniwersytet imienia Oxforda w Los Angeles na wydziale światowej finansjery!!! U nas w USA mowi się Koledż!!! Doskonale władam językiem ANGIELSKIM a tu maxie dowód !!!!
MY NAMES IS WACŁAW NICE TU MIT JU ZIOMAL!!!!! Także widzicie jak napierdalam po angielsku-!!!! Inglisz KURWA!!!
Ukończyłem drugiego Koledża na Kembridżu na wydziale filologii angielskiej!!!!
Także widzita OPIERDOLIŁEM dwa UNIWERKI NA RAZ!!!!
Także ziomale NIE MA SIĘ CO W TAŃCU PIERDOLIC OD TEGO ORKIESTRA ROBI PRZERWY rylko klikać klikać j jeszcze raz klikać w linkacza do CRYPTO COM.
Można zarobic miliony dolareczkow amerykanskich!!!
Właśnie wyszedłem z Bialefo Domu gdize spotkałem zks prezydentem USA Donaldem Trampem!!! Jutro lecę do Wieliej Brytani gdzie spodkam się premierem tego kraju inu uwaga będę CHONOROWYM GOSXIEM NA UDOCZYSTEJ KOLAXJO Z KRÓLOWA ELŻBIETA 2 i KSIĘCIEM KAROLEM!!!
Pojutrze lecę do Brukseli gdize spotkam sis Urszula Vod Derk Lajen!!!
Także widzicie jakie. Mam ZNAJOMOSCI!!!!!
JARAJ, BAKAJ, PAL BLANTA, DŻOJNTA, ĆPAJ, BIER MARYCHĘ, KOKAINĘ, DAWAJ W ŻYŁĘ, BIEER DOPALACZE I MNIEJ WYJEBANE NA ZWYKŁA ROBOTĘ!!!! Powtarzam WY-JE-BA-NE!!! Tak Kurwa!!!!
Klikaj w linkacza teraz w rym momencie bo jie ma czasu i zacznij trzepać kasiure na KRYPTOWALUTACH!!! Oto linkacz!!!! KLIKAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJ!!!!!
https://crypto.com/app/jjey2xxs9c