OK Google, przerób moje wideo. Tak działa Gemini Omni

20 maja 2026przeczytasz w 1 min.

Sprawdziłem Gemini Omni Flash, czyli nowy model generowania wideo, który zastępuje technologię Veo. Do realizacji obietnic z Google I/O 2026 droga jeszcze daleka, ale czuć potencjał.

Gemini Omni to model multimodalny, co oznacza, że potrafi generować wideo w oparciu o inne filmy, zdjęcia i opisy tekstowe. Można nawet łączyć różne dane wejściowe, czyli np. poprosić o umieszczenie obiektu ze zdjęcia we wskazanym filmie.

Niestety tryb video-to-video - w mojej ocenie najciekawszy - na razie nie jest dostępny na terenie Unii Europejskiej, ale ograniczenie to można łatwo obejść korzystając z VPN-u. Aby skorzystać z tej funkcji w aplikacji Gemini, niezbędna jest jednak także płatna subskrypcja Google AI Plus, AI Pro lub AI Ultra.

Gemini Omni - generowanie wideo w praktyce

Podczas Google I/O 2026 twórcy chwalili się, że ich nowy model wykorzystuje zaawansowane rozumowanie, starając się zachować logiczny ciąg zdarzeń czy zgodność z prawami fizyki. Bywa z tym jednak różnie.

Gdy wrzuciłem do Gemini Omni nagranie torów oraz zdjęcie zabawkowego pociągu, sztuczna inteligencja umieściła jadącą lokomotywę… między torami. Gdy natomiast próbowałem umieścić hologram Pixela 10 Pro XL na innym wideo, model wygenerował wizualizację Pixela 8 Pro XL. Zresztą zobaczcie sami:

Warto jednak podkreślić, że na razie dostępny jest jedynie model Gemini Omni Flash, a "Flash" w nomenklaturze Google’a oznacza uboższą wersję algorytmu. Wkrótce wydany ma zostać wariant Gemini Omni Pro, który najpewniej będzie radził sobie lepiej.

Przeczytaj także:

Gemini Omni - generowanie wideo w praktyce

Komentarze

Witaj!