Najwydajniejszy układ do AI. NVIDIA prezentuje Blackwell Ultra GB300

26 sierpnia 2025przeczytasz w 3 min.

Blackwell Ultra GB300 to najwydajniejszy układ obliczeniowy NVIDIA przeznaczony do zastosowań w sztucznej inteligencji. Producent ujawnił szczegóły techniczne nowego chipu oraz jego wyniki wydajności w zadaniach AI.

Na nową generację układów obliczeniowych NVIDIA Rubin przyjdzie nam jeszcze poczekać. Tymczasem NVIDIA wprowadza udoskonalenia w chipach obecnej generacji Blackwell. Blackwell Ultra GB300 ma być najwydajniejszym układem przeznaczonym do wspomagania sztucznej inteligencji.

Układ jest już w fazie produkcji i został udostępniony kluczowym klientom. Przy okazji ujawniono szczegóły techniczne - chociaż stanowi tylko rozszerzenie architektury Blackwell, oferuje znaczną poprawę wydajności i funkcjonalności.

Obejrzyj w

Blackwell Ultra GB300

Blackwell Ultra GB300 został wyprodukowany w procesie TSMC 4NP (5 nm) zoptymalizowanym pod kątem układów NVIDII. Chip składa się z 208 miliardów tranzystorów (mówimy więc o 2,5x większej liczbie tranzystorów niż układ z poprzedniej generacji NVIDIA Hopper). Warto jednak zaznaczyć, że chip w rzeczywistości składa się z dwóch połączonych ze sobą układów scalonych, komunikujących się przez interfejs NV-HBI o przepustowości 10 TB/s.

GB300 obejmuje 160 rdzeni SM, z których każdy ma 128 rdzeni CUDA, oraz cztery rdzenie Tensor piątej generacji z obsługą precyzyjnych obliczeń FP8, FP6 i NVFP4. Dodatkowo zawiera 256 KB pamięci Tensor (TMEM) i jednostki SFU, co daje łącznie 20 480 rdzeni CUDA, 640 rdzeni Tensor i 40 MB pamięci TMEM.

Więcej pamięci dla dużych modeli AI

Blackwell Ultra nie tylko oferuje większą moc obliczeniową, ale też większą pojemność pamięci, aby sprostać wymaganiom największych modeli AI. Do dyspozycji oddano 288 GB pamięci HBM3e na GPU, czyli 3,6x więcej pamięci niż Hopper H100 i o 50 proc. więcej niż wcześniejsze układy Blackwell. Większa pamięć pozwala hostować modele o bilionach parametrów, rozszerzać kontekst bez odciążania pamięci podręcznej i umożliwia wnioskowanie przy dużej liczbie jednoczesnych zadań.

Lepsza wydajność w AI

Blackwell Ultra wykorzystuje rdzenie Tensor piątej generacji oraz silnik Transformer Engine drugiej generacji. Dzięki temu osiąga wyższą przepustowość i niższe opóźnienia zarówno w gęstych, jak i rzadkich zadaniach AI. W praktyce oznacza to szybsze trenowanie dużych partii danych, bardziej efektywne uczenie przez wzmacnianie oraz sprawniejsze wnioskowanie przy małych partiach danych.

Układ przyspiesza także operacje wymagające uwagi (attention) w modelach Transformer, co jest kluczowe przy długich sekwencjach danych. Przepustowość jednostek SFU została podwojona, co przyspiesza obliczenia warstw attention nawet dwukrotnie w porównaniu do wcześniejszych GPU Blackwell.

Specjalne silniki dla nowoczesnych zadań AI

Blackwell Ultra posiada także dedykowane jednostki do obsługi multimodalnych danych:

Dekodowanie wideo i JPEG: NVDEC i NVJPEG przyspieszają dekodowanie nowoczesnych formatów wideo (AV1, HEVC, H.264) oraz kompresji JPEG bez użycia rdzeni CUDA. Dzięki temu możliwe jest szybkie przetwarzanie obrazów i wideo w czasie rzeczywistym.

Silnik dekompresji danych pozwala na sprzętową dekompresję danych przy przepustowości 800 GB/s, co zmniejsza obciążenie CPU i przyspiesza ładowanie skompresowanych zbiorów danych.

Oba silniki są wykorzystywane w bibliotece NVIDIA DALI, ułatwiając przygotowanie danych do treningu i wnioskowania w modelach AI.

Wyższa efektywność i wydajność

NVIDIA chwali się, że Blackwell Ultra to duży krok naprzód względem wcześniejszego Blackwell. Każdy chip oferuje o 50 proc. więcej mocy obliczeniowej NVFP4 oraz o 50 proc. większą pamięć HBM.

Dzięki temu możliwe jest uruchamianie większych modeli AI i szybsze przetwarzanie danych, bez utraty efektywności energetycznej. Przyspieszone wykonywanie operacji softmax dodatkowo zwiększa szybkość wnioskowania, poprawiając liczbę tokenów przetwarzanych na sekundę dla użytkownika (TPS/user) oraz w centrach danych na megawat (TPS/MW). Wszystkie zmiany w architekturze zostały wprowadzone z myślą zarówno o lepszym doświadczeniu użytkownika, jak i większej efektywności operacyjnej.

NVIDIA Grace Blackwell Ultra Superchip

NVIDIA zaprezentowała system Grace Blackwell Ultra - system łączący jeden procesor Grace (CPU) z dwoma układami Blackwell Ultra (GPU) za pomocą magistrali NVLink‑C2C. Oferuje do 30 PFLOPS mocy obliczeniowej dla gęstych operacji i 40 PFLOPS dla rzadkich (NVFP4), a także 1 TB zunifikowanej pamięci (HBM3E + LPDDR5X). Do tego przewidziano łączność ConnectX-8 SuperNIC 800 GB/s. Superchip stanowi podstawę systemu GB300 NVL72.

System GB300 NVL72 to chłodzony cieczą rack z 36 superchipami, połączonymi za pomocą przełączników NVLink 5 i NVLink Switching - cały system osiąga 1,1 EXAFLOPSów mocy obliczeniowej FP4. Zapewnia 50x wyższą wydajność fabryk AI w porównaniu z platformami Hopper, 10x niższe opóźnienia dla użytkownika i 5x większą przepustowość na megawat. System wprowadza też innowacje w zarządzaniu energią, stabilizując zużycie podczas treningu AI.

Przeczytaj także: