Ciekawostki

OpenAI dokłada do pieca. GPT-4o działa w czasie rzeczywistym

przeczytasz w 1 min.

OpenAI prezentuje nowy model, czyli GPT-4o, który analizuje dźwięk, obraz i tekst w czasie rzeczywistym. Zadziwiające jest to, w jakim czasie model reaguje na dochodzące sygnały dźwiękowe.

Entuzjaści sztucznej inteligencji z niecierpliwością czekali na OpenAI Spring Uptade - prezentację twórców ChatGPT. Atmosferę podgrzewały huczne branżowe doniesienia o potencjalnej prezentacji nowej wyszukiwarki internetowej opartej na AI i... otóż nie tym razem! OpenAI skupia się na nowym modelu. Poznajcie GPT-4o.

OpenAI prezentuje GPT-4o

GPT-4o uczyni interakcję bardziej naturalną. OpenAI deklaruje, że GPT-4o reaguje na sygnały audio w zaledwie 232 milisekund (średnia 320 milisekund), co jest podobne do czasu reakcji człowieka w rozmowie. Jeśli chodzi o wydajność, to w tej kwestii dorównuje GPT-4 Turbo w przypadku tekstu w języku angielskim, zaś w innych językach jest nawet lepszy.

"GPT-4o jest szczególnie lepszy w rozumieniu obrazu i dźwięku w porównaniu do istniejących modeli" - deklaruje OpenAI. Jak wobec tego prezentują się możliwości GPT-4o? Osobiście chyba największe wrażenie zrobiło na mnie nagranie, w którym poproszono model GPT-4o o to, by zaczął liczyć od jednego do dziesięciu.

Widać doskonale, jak szybko GPT-4o reaguje na wydawane polecenia dotyczące zmiany tempa. Wszystko dzieje się w czasie rzeczywistym. Podobnie kolejne - jedno z wielu, dodajmy - nagranie, w którym GPT-4o zamienia się w nauczyciela języka hiszpańskiego, analizując przedmioty widoczne za pośrednictwem kamery.

Kiedy GPT-4o stanie się dostępny?

"Możliwości tekstowe i graficzne GPT-4o zaczynają być udostępniane dzisiaj w ChatGPT. Udostępniamy GPT-4o w warstwie bezpłatnej, a użytkownikom Plus z nawet 5-krotnie większymi limitami wiadomości. W nadchodzących tygodniach wprowadzimy nową wersję trybu głosowego z GPT-4o w wersji alfa w ChatGPT Plus." - informuje OpenAI.

Pamiętajmy, że OpenAI to nie tylko ChatGPT. Nadchodzący model Sora pozwoli użytkownikom na generowanie filmów, co nawet docenili zawodowi artyści.

Źródło: OpenAI

Komentarze

5
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    Lister
    2
    No nie powiem, jestem pod wrażeniem...
    • avatar
      Warmonger
      1
      Co ciekawe, GTP-4o jest jednocześnie dwa razy szybszy i dwa razy tańszy od poprzednika. Dla developerów korzystających z API to fantastyczna wiadomość :D
      • avatar
        Kenjiro
        1
        Ciekawe, czy potrafi powtórzyć - "Grzegorz Brzęczyszczykiewicz, urodzony w Chrząszczyżewoszycach, powiat Łękołody" ;-).
        • avatar
          piomiq
          1
          "lepszy w rozumieniu obrazu i dźwięku"
          przede wszystkim ten model językowy NIE ROZUMIE, to nie sieć neuronowa jaką posiada człowiek. On potrafi co najwyżej przeanalizować, a nie zrozumieć.