Karty graficzne

Nvidia wprowadza najpotężniejszy akcelerator obliczeniowy – to prawdziwy mocarz

przeczytasz w 2 min.

Czekaliśmy, czekaliśmy i się doczekaliśmy! Nvidia oficjalnie zaprezentowała architekturę Hopper, która znajdzie zastosowanie w akceleratorach obliczeniowych – producent mówi o ogromnym wzroście wydajności, która pozwoli zrewolucjonizować ten rynek.

Podczas konferencji GTC 2022 poznaliśmy pierwsze szczegóły na temat układów graficznych z generacji Nvidia Hopper (nazwanych na cześć Grace Hopper, pionierki amerykańskiej informatyki). Nowa architektura ma zadanie przyspieszyć operacje programowania dynamicznego — technikę rozwiązywania problemów wykorzystywaną w algorytmach genomiki, obliczeniach kwantowych i optymalizacji tras.

Nowe układy graficzne znajdą zastosowanie w systemach obliczeniowych i superkomputerach. Warto jednak bliżej przyjrzeć się temu co zaprezentowała Nvidia.

Nvidia H100 SXM5 - wydajność

Architektura Nvidia Hopper. Jest moc!

Nowa architektura została zaprojektowana typowo z myślą o systemach obliczeniowych. Póki co producent przygotował jeden układ graficzny – to rdzeń GH100, który został wykonany w 4-nanometrowej litografii TSMC (TSMC N4) i składa się z 80 miliardów tranzystorów (układ ma powierzchnię 814 mm2, czyli zbliżoną do rdzenia GA100 – podobnego układu z generacji Nvidia Ampere).

Nvidia GH100 - budowa procesora graficznegoNvidia Hopper GH100 - budowa procesora graficznego

Nvidia GH100 - budowa procesora graficznego
Nvidia Hopper - budowa bloku SM

Procesor graficzny GH100 oferuje też potężną specyfikację. Cały układ graficzny obejmuje 18 432 rdzeni CUDA i 576 rdzeni Tensor (4. generacji), a ponadto przewidziano 96 GB pamięci HBM3/HBM2e 6144-bit.

Akcelerator obliczeniowy Nvidia H100 – znamy wydajność

Nowy układ graficzny posłużył do budowy profesjonalnego akceleratora obliczeniowego Nvidia H100 – jest on dostępny w postaci modułu SXM5 oraz karty rozszerzeń pod PCI-Express 5.0. Warto jednak zaznaczyć, że druga wersja oferuje gorszą specyfikację (ale też cechuje się dużo mniejszym zapotrzebowaniem na energię elektryczną).

ModelNvidia A100 (SXM)Nvidia H100 (SXM)Nvidia H100 (PCIe)
GeneracjaNvidia AmpereNvidia HopperNvidia Hopper
LitografiaTSMC N7TSMC N4TSMC N4
Układ graficznyAmpere GA100Hopper GH100Hopper GH100
Rdzenie CUDA69121587214592
Rdzenie Tensor432528456
Wydajność FP649,7 TFLOPS30 TFLOPS24 TFLOPS
Wydajność FP64 Tensor19,5 TFLOPS60 TFLOPS48 TFLOPS
Wydajność FP3219,5 TFLOPS60 TFLOPS48 TFLOPS
Wydajność FP32 Tensor312 TFLOPS1000 TFLOPS800 TFLOPS
Wydajność INT3219,5 TOPS30  TOPS24 TOPS
Wydajność INT8 Tensor1248 TOPS4000 TOPS3200 TOPS
Pamięć VRAM80GB HBM2e 5120-bit80 GB HBM3 5120-bit80 GB HBM2e 5120-bit
Przepustowość pamięci1,55 TB/s3 TB/s2 TB/s
TDP400 W700 W350 W

Nvidia H100 SXM5Akcelerator Nvidia H100 w postaci modułu SXM5

Nvidia H100 PCIeAkcelerator Nvidia H100 w postaci karty rozszerzeń pod PCI-Express

Wydajność karty robi ogromne wrażenie – to największa i najpotężniejsza konstrukcja, jaka została przygotowana przez „zielonych”.

Nvidia H100 SXM5 - wydajność

Producent chwali się, że akcelerator Nvidia H100 (SXM) oferuje 3-krotnie wyższą wydajność obliczeniową FP64, TF32, FP16 oraz 6-krotnie wyższą FP8 względem akceleratora Nvidia A100 (poprzednika z generacji Ampere). Przepustowość pamięci wzrosła 1,5-krotnie.

Warto dodać, że akcelerator Nvidia H100 jest obsługiwany przez wszystkie najważniejsze narzędzia programistyczne, dzięki czemu można go używać do przyspieszania aplikacji od AI po HPC (z tej też okazji producent wydał ponad 60 aktualizacji swoich bibliotek programistycznych, które przyspieszą prace w zakresie obliczeń kwantowych, genomiki, odkrywania nowych leków, cyberbezpieczeństwa czy badań nad 6G)

Dostępność kart Nvidia H100

Akceleratory Nvidia H100 mogą być wdrożone w centrach danych i systemach chmurowych. Oczekuje się, że takie konstrukcje będą dostępne jeszcze w tym roku u wiodących dostawców usług w chmurze i producentów sprzętu.

Nvidia DGX H100

Nvidia DGX H100
Nvidia daje możliwość połączenia nawet 32 systemów DGX H100

Przy okazji zaprezentowano też nowy system obliczeniowy DGX H100, który został wyposażony w osiem akceleratorów obliczeniowych Nvidia H100 - zostały one połączone za pomocą łącza NVLink czwartej generacji (dzięki zewnętrznemu przełącznikowi NVLInk można też połączyć do 32 węzłów DGX H100 w superkomputer Nvidia DGX Super POD).

Jeśli jesteście zainteresowani szczegółami, poniżej możecie zobaczyć powtórkę konferencji GTC 2022, na której zaprezentowano nowe akceleratory Nvidia Hopper.

Źródło: Nvidia, ComputerBase, WCCFTech

Komentarze

14
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    Virtus
    15
    Czekaliśmy??
    Szanowny Autor planuje zakup takiej karty?
    • avatar
      solasoft
      3
      Ta karta na pci x to nie jest karta graficzna tylko specjalna karta sieciowa prosze nie wprowadzac w blad.
      • avatar
        Lexus404
        1
        biore 3
        • avatar
          Warmonger
          1
          Czy ja dobrze widzę 700 W w tabelce? o.O Czym to zasilić? Jak to schłodzić?
          • avatar
            Aquagen
            0
            Tylko mam nadzieję, że doczekamy się pełnego Hoppera z HBM3 w wersji do stacji roboczych z wyjściami wideo. (Pamiętacie jeszcze Quadro GP100 i GV100? Jak widać kiedyś dali radę.)

            Właściwie czy układowi GH100 brakuje jakiś jednostek, aby na jego podstawie zbudować kartę z wyjściami na monitory?
            • avatar
              Konto usunięte
              0
              brawo @Paweł za wywalanie słusznej krytyki, popartej cytatami i faktami z ..... twoich hmmm... artykułów.

              treść artykułu: "Nowe układy graficzne znajdą zastosowanie w systemach obliczeniowych"
              tytuł artykułu: "najpotężniejszy akcelerator obliczeniowy"

              przy okazji "algorytmach genomiki" co to **** the **** jest ?????? o algorytmach genetycznych na serio nie słyszałeś?

              chłopie weź się zastanów co piszesz. to nie jest żadna karta graficzna ani inny akcelerator graficzny, lecz akcelerator obliczeniowy. co najwyżej jest oparty na technologii układów grafiki. ja twoje artykuły jak czytam, to albo ostrzec innych przed informacyjną sieczką, albo żeby się dowiedzieć że technologia X została przez firmę Y wprowadzona na rynek. Twoich opisów raczej nie czytam z powodu kompletnego pomieszania faktów.

              Bardzo bym chciał abyś ciągnął jakość tego portalu w górę. na serio.
              • avatar
                pablo11
                -1
                Przy konkurencyjnym Mi250 nie prezentuje się jakoś rewolucyjnie. Mi250 jest pewnie w większości obecnych zastosowań wydajniejszy.
                • avatar
                  Kapitan Nocz
                  -2
                  A jakaś cena padła? Sądząc po tym, że jest to nadal układ monolityczny z gigantyczną liczbą tranzystorów i jego produkcja to przypuszczalnie koszmar dotyczący uzysku to możemy spodziewać się jakiegoś rekordu cenowego, na pewno mamy rekord poboru prądu :) 700W!!
                  Tak, że jeśli odpowiedzią AMD będą udane układy w architekturze MCM, to przypuszczalnie będziemy mieli Potop jak w procesorach.
                  • avatar
                    Aquagen
                    0
                    @Paweł Maziarz
                    W tabelce powyżej H100 SXM ma 15872 rdzeni Cuda FP32, czyli 124 jednostek SM, ponieważ na diagramie pojedynczego SM jest 128 FP32.
                    Na tym samym diagramie widać, że pojedynczy SM to 4 rdzenie Tensor, czyli całość powinna mieć 496 rdzeni Tensor, a w tabelce jest 528.
                    Wiem, że takie same liczby są na videocardz, ale to wydaje mi się niespójne.
                    Jak dla mnie, najprawdopodobniej jest to 132 SM i 16896 rdzeni Cuda FP32, co pasuje do 528 rdzeni Tensor.
                    • avatar
                      ParurasDziuras
                      0
                      Czykam na rtxa 4000 z hooperem! Będzie moc! Gry w 4K z Ray tracing 144 fps! Ja i mój monitor 4K 144hz nie możemy się już doczekać!
                      • avatar
                        Gatts-25
                        0
                        Jednak to zagęszczenie tranzystorów na mm2 samo w sobie w przypadku obecnego FinFet osiągnęło maksymalną efektywność w N7 gdy popatrzymy na układ Nvidia w N4. Jakbyśmy mieli patrzeć tylko na trzy parametry takie jak: 0.486W/mm2/65.46MTr, które osiąga N7 i porównywać z 0.86W/mm2/98.28MTr oparte na N4 to widać od razu dlaczego to są ostatki życia tej metody produkcji tranzystorów. N3 jeszcze to pewnie podwyższy ale i tak najważniejsza jest wydajność i wtedy jak dorzucimy do tego elementu czwartą składową to wychodzi na PLUS. Przy większym zużyciu energii na mm2 w przypadku N4 porównując z N7 uzyskujemy potwora. W przypadku tego H100 (SXM) uzyskujemy 0.0737TFlops na mm2 więc N4 to ogromny postęp gdyż w przypadku A100 (80GB) uzyskujemy 0.0236TFlops na mm2. To jest wzrost wydajności na mm2 aż o ponad 300% i jednocześnie o 56.5% większe zużycie energii.
                        Korzyść jest widoczna gołym okiem. N4 jest gęstsze od N5 o 8% więc jak N5 ma 171.2MTr/mm2 to N4 ma maksymalne upakowanie na poziomie niecałych 185MTr/mm2. Teraz gdy wiadomo ile mamy tutaj upakowanych tranzystorów na tak dużym układzie jak Archi Hooper od Nvidia widzimy, że osiągamy ponad 53% maksymalnego upakowania tranzystorów na mm2. Wiedząc o tym, że N3 ma osiągać maksymalnie ponad 291MTr/mm2 i przeliczając na 53% maksymalnego upakowania tranzystorów dla rynku HPC dostajemy ponad 154MTr/mm2 dla N3. Przejście z N7 na N4 przyniosło przyrost tranzystorów na mm2 o 32.82 miliona tranzystorów na mm2. Przejście z N4 na N3 przyniesie przypuszczalnie przyrost tranzystorów na mm2 aż o ponad 55 milionów. Z całą pewnością na mm2 znów skoczy do góry zużycie energii ale można liczyć na kolejny ogromny wzrosty Wydajności na Watt całego układu właśnie przez tą gęstość upakowania tranzystorów. A ludzie dalej myślą, że na jeszcze lepszy Ray Tracing (taki bardziej naturalny trzeba będzie czekać przynajmniej do 2030 roku (nie biorę pod uwagę tych co nawet o 2035 roku piszą bo to jest całkowity brak wyobraźni w tym co się właśnie dzieje).