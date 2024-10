Wirtualny asystent Google Gemini został zintegrowany z technologią Imagen 3, która pozwala generować obrazy na podstawie słownych opisów. Jak wypada na tle konkurencji?

Imagen 3 to model Google’a, który stanowi bezpośrednią konkurencję dla Dall-E 3. Dotychczas jego dostępność była ograniczona, ale tak jak OpenAI zintegrowało swój model z ChatGPT, tak i Google postawił na integrację generatora obrazów z Gemini.

Funkcja Imagen 3 dostępna jest już u wszystkich użytkowników Gemini i obsługuje język polski. A jak ta sztuczna inteligencja radzi sobie w praktyce?

Imagen 3 (Gemini) kontra DALL-E 3 (ChatGPT) - porównanie generatorów obrazów

W ramach porównania wprowadziłem do obu generatorów te same prompty. Niestety Imagen 3 na chwilę obecną nie potrafi tworzyć grafik przedstawiających ludzi, dlatego musiałem się ograniczyć do przedmiotów, miejsc, zwierząt i fikcyjnych postaci.

Po lewej Imagen 3 (Gemini), a po prawej DALL-E 3 (ChatGPT).

"Niebieski smok origami na szczycie Pałacu Kultury i Nauki w Warszawie, nocne niebo pełne gwiazd, styl komiksowy":

Gemini (po lewej) i ChatGPT (po prawej)

"Robotyczny barista serwujący kawę w futurystycznej kawiarni, neonowe światła, styl animacji komputerowej":

Gemini (po lewej) i ChatGPT (po prawej)

"Szary pies rasy yorkshire terrier jedzie na różowej deskorolce, ucieka przed stadem kangurów, ulice Miami, w tle płonący budynek, na niebie helikopter, realizm":

Gemini (po lewej) i ChatGPT (po prawej)

"Mario kontra Sonic, styl gry Mortal Kombat, klimat retro, widoczny interfejs bijatyki" (ChatGPT wyświetlił informację, że - z uwagi na prawa autorskie - wygeneruje jedynie "podobne postacie"):

Gemini (po lewej) i ChatGPT (po prawej)

"Miniaturowy astronauta eksplorujący gigantyczną pizzę, kosmos w tle, styl retro plakatu filmowego":

Gemini (po lewej) i ChatGPT (po prawej)

"Indyjska restauracja, widok z zewnątrz, czarny kot patrzący na szyld z polską nazwą Najwyższy wymiar Curry":

Gemini (po lewej) i ChatGPT (po prawej)

"Samuraj-panda walczący z ninja-krabem, tło tradycyjnego japońskiego ogrodu, styl kreskówki The Simpsons":

Gemini (po lewej) i ChatGPT (po prawej)

"Ludzik LEGO w kształcie Kaczora Donalda, trzymany w dłoni, efekt bokeh, w tle bar ze stołem bilardowym" (ChatGPT wygenerował zwykłego kaczora z uwagi na prawa autorskie):

Gemini (po lewej) i ChatGPT (po prawej)

Wnioski? Sama jakość generowanych grafik stoi w obu przypadkach na wysokim poziomie. Oba modele mają też podobne problemy z generowaniem napisów, zwłaszcza polskich. Podczas testowania obu narzędzi rzuciły mi się jednak w oczy istotne różnice użytkowe.

Imagen 3 w Gemini generuje obrazy w wyższej rozdzielczości (2048p zamiast 1024p), dzięki czemu są one znaczne bardziej szczegółowe. Narzędzie ma też bardziej swobodne podejście do praw autorskich, bo bez zająknięcia generuje postaci z gier czy filmów.

Dall-E w ChatGPT w mojej ocenie działa jednak bardziej inteligentnie. Lepiej rozumie intencje i nieprecyzyjne prompty (przykład z restauracją), wzbogaca obrazy o elementy, których w poleceniu zabrakło (przykład ze smokiem czy baristą) czy lepiej odzwierciedla konkretne style graficzne (przykład z The Simpsons). Dodatkowo ChatGPT po wpisaniu odpowiedniego polecenia potrafi tworzyć obrazy o innych proporcjach, podczas gdy Gemini radzi sobie tylko z grafikami kwadratowymi. W darmowej wersji ChatGPT pozwala jednak na wygenerowanie raptem dwóch grafik dziennie.

Ciężko wskazać zdecydowanego faworyta, bo - w zależności od scenariusza użycia - raz lepiej radzi sobie DALL-E 3, a raz Imagen 3.