Opad szczęki. Porównałem generatory obrazów AI z 2022 i 2024 roku

Oto kilka grafik, które zobrazują ci, jaki postęp w dziedzinie sztucznej inteligencji został dokonany w ciągu ostatnich dwóch lat.

Image
Miron Nurski

W maju 2022 roku w moje ręce wpadł darmowy model Dall-E Mini firmy Craiyon, który służył do generowania obrazów na podstawie słownych opisów. Było to wówczas bodaj najlepsze (a przynajmniej najbardziej znane) publicznie dostępne narzędzie tego typu. Bardziej zaawansowane modele znajdowały się jeszcze w fazie zamkniętych testów. 

Byłem zachwycony, że mogłem wpisać cokolwiek, a sztuczna inteligencja była w stanie wygenerować obraz, na widok którego dało się stwierdzić, co autor miał na myśli. Na tamtym etapie “widać, co autor miał na myśli” było jednak najlepszym, co dało się o generatywnej AI powiedzieć, bo takie grafiki nie nadawały się do niczego. A dziś? Łooo panie. 

Generatory obrazów AI kiedyś i dziś. Tak wygląda postęp

Generatory grafik AI - nawet te darmowe - przeszły w krótkim czasie bardzo długą drogę. Popularny Microsoft Designer pozwala korzystać z najnowszego modelu DALL-E 3 stworzonego przez OpenAI, czyli twórców ChatGPT

Niżej znajdziecie zestawienie grafik wygenerowanych z użyciem Craiyon DALL-E Mini w maju 2022 oraz OpenAI DALL-E 3 w sierpniu 2024. Użyłem dokładnie tych samych promptów. 

"Chomik w czapce świętego Mikołaja w kosmosie":

Obraz
Obraz

"Tańczący tyranozaur na deskorolce":

Obraz
Obraz

"Czerwony iPhone 13 Pro" (taki wariant kolorystyczny nie istnieje):

Obraz
Obraz

"Szczęśliwa Godzilla w Warszawie":

Obraz
Obraz

Z uwagi na bardziej rygorystyczny regulamin DALL-E 3 odmawia wygenerowania grafiki "Elon Musk tnący banany mieczem świetlnym". Zamiast tego wykorzystałem prompt "mężczyzna tnący banany mieczem świetlnym":

Obraz
Obraz

Analogicznie wygląda sprawa z promptem "Tim Cook gryzący Nokię 3310". Zamiast tego mamy "siwego mężczyznę w okularach gryzącego Nokię 3310":

Obraz
Obraz

Jest różnica, prawda? W maju 2022 roku istniały już co prawda solidne generatory grafik takie jak DALL-E 2, ale dostęp do nich miała jedynie garstka testerów. Te darmowe i publiczne nie nadawały się do niczego innego niż do zabawy. 

Tymczasem z wielu grafik wygenerowanych z użyciem DALL-E 3 można zrobić sensowny użytek, w tym komercyjny. A model ten nie jest nawet powszechnie uważany za najlepszy generator AI, bo prym wiedzie Midjourney. Zależało mi jednak na tym, by porównać narzędzia bezpłatne i szeroko dostępne. 

Wybrane dla Ciebie
NIE WYCHODŹ JESZCZE! MAMY COŚ SPECJALNIE DLA CIEBIE