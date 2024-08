Oto kilka grafik, które zobrazują ci, jaki postęp w dziedzinie sztucznej inteligencji został dokonany w ciągu ostatnich dwóch lat.

W maju 2022 roku w moje ręce wpadł darmowy model Dall-E Mini firmy Craiyon, który służył do generowania obrazów na podstawie słownych opisów. Było to wówczas bodaj najlepsze (a przynajmniej najbardziej znane) publicznie dostępne narzędzie tego typu. Bardziej zaawansowane modele znajdowały się jeszcze w fazie zamkniętych testów.

Byłem zachwycony, że mogłem wpisać cokolwiek, a sztuczna inteligencja była w stanie wygenerować obraz, na widok którego dało się stwierdzić, co autor miał na myśli. Na tamtym etapie “widać, co autor miał na myśli” było jednak najlepszym, co dało się o generatywnej AI powiedzieć, bo takie grafiki nie nadawały się do niczego. A dziś? Łooo panie.

Generatory obrazów AI kiedyś i dziś. Tak wygląda postęp

Generatory grafik AI - nawet te darmowe - przeszły w krótkim czasie bardzo długą drogę. Popularny Microsoft Designer pozwala korzystać z najnowszego modelu DALL-E 3 stworzonego przez OpenAI, czyli twórców ChatGPT.

Niżej znajdziecie zestawienie grafik wygenerowanych z użyciem Craiyon DALL-E Mini w maju 2022 oraz OpenAI DALL-E 3 w sierpniu 2024. Użyłem dokładnie tych samych promptów.

"Chomik w czapce świętego Mikołaja w kosmosie":

"Tańczący tyranozaur na deskorolce":

"Czerwony iPhone 13 Pro" (taki wariant kolorystyczny nie istnieje):

"Szczęśliwa Godzilla w Warszawie":

Z uwagi na bardziej rygorystyczny regulamin DALL-E 3 odmawia wygenerowania grafiki "Elon Musk tnący banany mieczem świetlnym". Zamiast tego wykorzystałem prompt "mężczyzna tnący banany mieczem świetlnym":

Analogicznie wygląda sprawa z promptem "Tim Cook gryzący Nokię 3310". Zamiast tego mamy "siwego mężczyznę w okularach gryzącego Nokię 3310":

Jest różnica, prawda? W maju 2022 roku istniały już co prawda solidne generatory grafik takie jak DALL-E 2, ale dostęp do nich miała jedynie garstka testerów. Te darmowe i publiczne nie nadawały się do niczego innego niż do zabawy.

Tymczasem z wielu grafik wygenerowanych z użyciem DALL-E 3 można zrobić sensowny użytek, w tym komercyjny. A model ten nie jest nawet powszechnie uważany za najlepszy generator AI, bo prym wiedzie Midjourney. Zależało mi jednak na tym, by porównać narzędzia bezpłatne i szeroko dostępne.