OpenAI dokłada do pieca. GPT-4o działa w czasie rzeczywistym

13 maja 2024przeczytasz w 1 min.

OpenAI prezentuje nowy model, czyli GPT-4o, który analizuje dźwięk, obraz i tekst w czasie rzeczywistym. Zadziwiające jest to, w jakim czasie model reaguje na dochodzące sygnały dźwiękowe.

Entuzjaści sztucznej inteligencji z niecierpliwością czekali na OpenAI Spring Uptade - prezentację twórców ChatGPT. Atmosferę podgrzewały huczne branżowe doniesienia o potencjalnej prezentacji nowej wyszukiwarki internetowej opartej na AI i... otóż nie tym razem! OpenAI skupia się na nowym modelu. Poznajcie GPT-4o.

OpenAI prezentuje GPT-4o

GPT-4o uczyni interakcję bardziej naturalną. OpenAI deklaruje, że GPT-4o reaguje na sygnały audio w zaledwie 232 milisekund (średnia 320 milisekund), co jest podobne do czasu reakcji człowieka w rozmowie. Jeśli chodzi o wydajność, to w tej kwestii dorównuje GPT-4 Turbo w przypadku tekstu w języku angielskim, zaś w innych językach jest nawet lepszy.

Obejrzyj w

"GPT-4o jest szczególnie lepszy w rozumieniu obrazu i dźwięku w porównaniu do istniejących modeli" - deklaruje OpenAI. Jak wobec tego prezentują się możliwości GPT-4o? Osobiście chyba największe wrażenie zrobiło na mnie nagranie, w którym poproszono model GPT-4o o to, by zaczął liczyć od jednego do dziesięciu.

Obejrzyj w

Widać doskonale, jak szybko GPT-4o reaguje na wydawane polecenia dotyczące zmiany tempa. Wszystko dzieje się w czasie rzeczywistym. Podobnie kolejne - jedno z wielu, dodajmy - nagranie, w którym GPT-4o zamienia się w nauczyciela języka hiszpańskiego, analizując przedmioty widoczne za pośrednictwem kamery.

Obejrzyj w

Kiedy GPT-4o stanie się dostępny?

"Możliwości tekstowe i graficzne GPT-4o zaczynają być udostępniane dzisiaj w ChatGPT. Udostępniamy GPT-4o w warstwie bezpłatnej, a użytkownikom Plus z nawet 5-krotnie większymi limitami wiadomości. W nadchodzących tygodniach wprowadzimy nową wersję trybu głosowego z GPT-4o w wersji alfa w ChatGPT Plus." - informuje OpenAI.

Pamiętajmy, że OpenAI to nie tylko ChatGPT. Nadchodzący model Sora pozwoli użytkownikom na generowanie filmów, co nawet docenili zawodowi artyści.

Źródło: OpenAI

Przeczytaj także:

Komentarze

Zaloguj się, aby skomentować

Lister
2024-05-1322:11
2
No nie powiem, jestem pod wrażeniem...
Warmonger
2024-05-1407:55
1
Co ciekawe, GTP-4o jest jednocześnie dwa razy szybszy i dwa razy tańszy od poprzednika. Dla developerów korzystających z API to fantastyczna wiadomość :D
Kenjiro
2024-05-1408:28
1
Ciekawe, czy potrafi powtórzyć - "Grzegorz Brzęczyszczykiewicz, urodzony w Chrząszczyżewoszycach, powiat Łękołody" ;-).
piomiq
2024-05-1417:28
1
"lepszy w rozumieniu obrazu i dźwięku"
przede wszystkim ten model językowy NIE ROZUMIE, to nie sieć neuronowa jaką posiada człowiek. On potrafi co najwyżej przeanalizować, a nie zrozumieć.