Google uruchamia Gemini 3.5 Live Translate. Ponad 70 języków
Google rozpoczął wdrażanie Gemini 3.5 Live Translate, nowego modelu audio do tłumaczenia mowy na mowę niemal w czasie rzeczywistym. Jak wynika z wpisu firmy, rozwiązanie automatycznie rozpoznaje ponad 70 języków i ma zachowywać intonację, tempo oraz wysokość głosu rozmówcy.
Google zapowiada, że nowy model trafi do kilku produktów jednocześnie. Gemini 3.5 Live Translate nie czeka na koniec całej wypowiedzi, lecz generuje przekład na bieżąco, dzięki czemu dźwięk ma pozostać płynny, a opóźnienie wobec mówiącego wynosić zaledwie kilka sekund przez całą sesję.
Jak działa Gemini 3.5 Live Translate
Według Google model przetwarza mowę już w trakcie jej przesyłania. Ma sam wykrywać język, obsługiwać wejście wielojęzyczne bez ręcznej konfiguracji i radzić sobie także w głośnym, mniej przewidywalnym otoczeniu.
Firma wskazuje, że takie tłumaczenie na żywo może przydać się m.in. podczas rozmów, spotkań, lekcji i transmisji. W odróżnieniu od systemów działających krok po kroku model ma równoważyć dwa cele: poczekać chwilę na szerszy kontekst, jednocześnie nie opóźniając rozmowy.
Zakrzywili ruchome schody. To koszmar inżynierów
Każdy dźwięk generowany przez modele Google ma otrzymywać znak wodny SynthID, ukryty bezpośrednio w sygnale audio, by ułatwiać wykrywanie treści wygenerowanych przez AI i ograniczać ryzyko dezinformacji.
Google Meet, Google Translate i nowy tryb słuchania
W Google Meet tłumaczenie mowy ma wkrótce zacząć korzystać z Gemini 3.5 Live Translate. Prywatne testy dla wybranych klientów biznesowych Google Workspace mają ruszyć jeszcze w tym miesiącu, a szersze wdrożenie firma planuje na dalszą część roku.
Model pojawia się też globalnie w aplikacji Google Translate na Androidzie i iOS. Przy funkcji "live translate" użytkownik może podłączyć dowolną parę słuchawek, aby słyszeć przekład odzwierciedlający ton wypowiedzi rozmówcy.
Google informuje, że dla użytkowników Androida zaczyna stopniowo udostępniać też nowy "tryb słuchania" ("listening mode"). Funkcja pozwala odsłuchiwać tłumaczenia bezpośrednio przez głośnik do rozmów w telefonie. Wystarczy przyłożyć telefon do ucha tak jak podczas zwykłego połączenia, a przetłumaczony dźwięk będzie odtwarzany od razu. Według Google to wygodne rozwiązanie w sytuacjach, gdy użytkownik chce szybko usłyszeć tłumaczenie tak, aby nie słyszały go osoby wokół, a nie ma pod ręką słuchawek.