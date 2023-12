Kilka dni temu Google zaprezentowało swój autorski model AI - Gemini. Na materiale wideo widać, jak na podstawie prezentowanych obiektów oraz gestów i głosu użytkownika, algorytm świetnie rozpoznaje kontekst i prowadzi płynny dialog. Jak firmie udało się coś takiego osiągnąć?

Zanim odpowiemy na to pytanie, zapraszamy do zapoznania się ze wspomnianym materiałem wideo:

Film zatytułowany „Praktyczne spotkanie z Gemini: interakcja z multimodalną sztuczną inteligencją” osiągnął w ciągu ostatnich dni ponad dwa miliony wyświetleń i nietrudno zrozumieć dlaczego. Imponujące demo pokazuje, jak model łączący zrozumienie języka i analizy obrazu, może być elastyczny oraz dynamicznie reagować na różne dane wejściowe. Problem polega na tym, że ów materiał został w dużym stopniu… wyreżyserowany.

Otóż Google choć przyznaje się otwarcie do tego, że „zmniejszono opóźnienia i skrócono wyjścia informacji zwrotnej od Gemini”, to praktycznie firma nie wspomniała w filmie o tym, iż wiele z tych interakcji musiało zostać odpowiednio „przygotowane”. Co to oznacza? Na blogu Google for Developers (do którego link znajduje się w opisie samego materiału wideo) możemy zobaczyć chociażby, jakie kroki należało podjąć, aby Gemini zrozumiało grę w „kamień, papier, nożyce”.

Na filmie postać tylko wykonuje trzy gesty dłonią, a algorytm AI od razu przekazuje informacje zwrotną „Wiem co robisz! Grasz w kamień, papier, nożyce”. Na blogu natomiast pokazane są wszystkie kroki, które należało podjąć, by Gemini „zrozumiał” z czym ma do czynienia:

Nie dosyć, że prezenter przedstawił kolejno wszystkie gesty (notabene jeden z nich AI błędnie zinterpretowało), to następnie trzeba było Gemini podpowiedzieć, że te trzy ułożenia dłoni „to pewna gra”. Dopiero wtedy algorytm był w stanie odpowiedzieć, co mu jest prezentowane. Jednak nie to jest największy problem. Plot twist polega na tym, iż wszystkie interakcje z AI od Google, muszą być przedstawione na obrazkach. Gemini (przynajmniej na razie) nie jest w stanie intepretować ruchomego obrazu w czasie rzeczywistym. Przykładów nieścisłości można tutaj mnożyć (zachęcamy do przeanalizowania całego wpisu na blogu).

Zapewne gigant z Mountain View dąży do tego, aby jego AI działało dokładnie tak, jak na przedstawionej demonstracji, lecz na ten moment jest to niemożliwe. W rzeczywistości cała interakcja z Gemini, to seria starannie dobranych podpowiedzi tekstowych, zawierających odpowiednio wyeksponowane obrazy. Wszystko po to, aby algorytmy były w stanie „zrozumieć” to, z czym mają do czynienia.

Gdyby na początku filmu było napisane: „To stylizowane przedstawienie interakcji przetestowanych przez naszych badaczy”, to większość sceptyków nie miała by z tym żadnego problemu. W jakiś sposób oczekujemy od tego typu materiałów tego, że będą koloryzować rzeczywistość. W końcu przy wielu nowatorskich pomysłach wchodzimy w strefę „pieśni przyszłości”. Tutaj mamy jasny komunikat – „Praktyczne spotkanie z Gemini”. Ponadto dodają do tego są słowa „nasze ulubione interakcje”. Sugerują one oglądającym, że widzą coś, z czym testujący mieli realnie do czynienia. Niestety tak nie jest.

Po artykułach i zarzutach zaprezentowanych m.in. przez serwisy Bloomberg oraz TechCrunch, do całej sprawy odniósł się wiceprezes ds. badań w Google DeepMind, Oriol Vinyals. Napisał on w social mediach:

Film ilustruje, jak mogłyby wyglądać multimodalne doświadczenia użytkowników zbudowane za pomocą Gemini. Stworzyliśmy go, aby inspirować programistów

Także zobaczymy, jak wielu specjalistów Google „zainspiruje” i kiedy zaprezentuje światu AI Studio z Gemini Pro (do celów eksperymentalnych). A jakie jest Wasze zdanie w tej kwestii? Zapraszamy do sekcji komentarzy!

Źródło: TechCrunch, Google for Developers