Od kilku dni otwierając stronę top500.org, zawierającą ranking najszybszych superkomputerów na świecie, możemy zobaczyć, że na szczycie doszło do pewnej zmiany.
Chiński superkomputer Tianhe-1A zbudowany przy wykorzystaniu procesorów Intel Westmere-EP oraz akceleratorów Nvidia Tesla osiągnął w zeszłym roku zdumiewający wynik 2,5 Petaflops, pokonując dwukrotnie wolniejszego Nebulae. Ten dwukrotny skok wydajności odbił się echem na całym świecie. Ciekawe w takim razie co będzie teraz....
.jpg)
Firma Fujistsu ukończyła i przetestowała programem Linpack swój superkomputer o jakże wiele mówiącej nazwie "K". Do budowy nie użyto ani jednego procesora o pochodzeniu graficznym, takim jak Nvidia Tesla czy AMD Firestream, a mimo to udało mu się osiągnąć wynik, uwaga, 8 Petaflops, czyli ponad 3 razy więcej niż w Tianhe-1A.
Pewnie teraz każdy fanboj AMD czy Intela pomyślał sobie: "pewnie zbudowali to na tych nowych 10-rdzeniowych Intel Westmere-EX", lub też" to na pewno 12-rdzeniowe AMD Magny Cours". Niestety dla obu stron, procesor jakiego tam użyto to SPARC64 VIIIfx (Venus), a dokładniej 68544 jego sztuki.
.jpg)
Cóż to za procesor w ogóle jest i jak się on w ogóle ma do tego, z czym mamy do czynienia na co dzień. Otóż jest to 8-rdzeniowy RISC, o taktowaniu 2 GHz i wydajności 16 GFlops na rdzeń. Dla porównania użyte do budowy Tianhe-1A procesory Intel Westmere-EP mają wydajność 11,72 GFlops przy taktowaniu 2,93 GHz. Wykonując prostą kalkulację daje to 40% wzrost wydajności na korzyść Venus. Ile by to było zegar w zegar, policzcie już sami. Jest to po prostu pogrom wydajnościowy i SPARC64 VIIIfx jest obecnie najszybszym CPU na świecie z ogromną przewagą nad pozostałymi.
Kto by pomyślał, że w odwieczną bitwę na serwerowym rynku między Xeonami a Opteronami wmiesza się SPARC. Czy w najbliższej przyszłości możemy spodziewać sie jeszcze szybszych maszyn?
Podobne artykuły:
Źródła: top500.org, engadget
Ładnie skaczą te rekordy wydajności. Pewnie jak by się bardzo mocno postarali to mogliby jeszcze wydajniejszego zrobić.
Dziwne, ale chyba się nie znam. Przecież taki HD 6990 ma wydajność 5,1 TFlopsa, a więc zdecydowanie wyższą niż taki SPARCxxxxx - nie mówię tu już o profesjonalnych kartach. Dlaczego do najlepszego serwera nie wsadzą 65k takich AMD FirePro, Nvidia Tesla, czy innych Intelów Knight Ferry?
zróbmy proste obliczenie, taki GTX580 ma 512 rdzeni CUDA i wydajność 1581 GFlops, czyli każdy pojedynczy rdzeń ma w zaokrągleniu 3GFlops wydajności, a w dodatku jest ograniczony jak tylko się da, by zmieściło się ich jak najwięcej; takie procesory super nadają się do operacji mnożenia i działań na macierzach, ale w standardowych obliczeniach wypadają słabo
Intel Knight Ferry jest czymś pomiędzy, tzn rdzeni jest więcej, ale nie aż tak dużo jak w kartach graficznych i nie są one tak bardzo obcinane, przez co sumarycznie każdy pojedynczy rdzeń trochę wolniejszy od tego w standardowym CPU, ale jest już ich na tyle, żę mogą pracować jak GPU
Rozumiem, że wszystkie profesjonalne karty graficzne odpadają z tego samego powodu co GTX 580?
w końcu Tesla to nic innego jak GeForce z inna nalepką i trochu innymi sterownikami
I trochu pamięci i trochu podwójnej precyzji i trochu chłodzenia ...
Ogólnie to Tesla w obliczeniach się ma do GF tak jak składaki z Media Marktu do maszyn wielu tutejszych forumowiczów - niby z grubsza to samo, ale jednak niewielu by się chciało zamienić, chyba że ostatnie 3 lata nic nie dokładali do maszyny.
Gdyby w Knight corrnerze liczyć rdzenie jak AMD, to mieli byśmy ich 50*16+50 ;) - 50rdzeni i każdy ma 1 skalar i SIMD 16vec. Więc 850 ;)
Co do wydajności w DP, to knights corrner ma oferować 650Gflops. Tesla ma 515Gflops, a firestream oferuje 544Gflops.
Dla porównania nadchodzący bulldozer 16core przy 2Ghz będzie oferował 256Gflops - podobnie 8rdzeniowy SB. - więc te GPU nie mają jakiejś ogromnej przewagi zważając na to, że mają blisko o 1/3 więcej tranzystorów i TDP na poziomie 200W, czyli prawie 2x większe.
Bo flop to jeden z wielu WYZNACZNIKÓW wydajności (dość surowy na dodatek). Masz jeszcze operacje stałoprzecinkowe i inne cuda, o samej architekturze sprzętu nie wspominając.
Dla porównania to jakby w autach po np. pojemności silnika stwierdzać, które jest lepsze.
Dla przykładu w świecie gpu.
Radeon HD 4770 - 960 GFlops
GeForce GTX 280 - 933 GFlops
GeForce GTX 550 Ti - 691 GFlops
Radeon najlepszy tak?
tylko, że w newsie mowa o DP, a Ty tutaj podajesz marną wydajność w SP.
W DP Quadro 6000 (Fermi) ma 500Gflops.
Czytaj dokładniej co komentuję. Dla tego przykładu SP jest wystarczające. I ma to udowodnić tylko, ze flop to jeden z wyznaczników wydajności nie jak się niektórym wydaje jedyny!.
Nie dość tego przy superkomputerach podaje się wartości surowe nie utrzymywane. Więc to co mają "naprawdę" to tylko mała cząstka wartości surowej.
Kolejna sprawa, obrazuje to tylko i wyłącznie wydajność jednostek FPU.
A używanie Flop'ow do określenia wydajności w powszechnych zastosowaniach (nie naukowych), kompletnie mija się z celem bo operacje stałoprzecinkowe wiodą tu prym.
Bzdura. Po pierwsze przykład wcale nie jest dobry, bo są zastosowania w których to radeon jest lepszy - np kryptografia. Druga sprawa - w wydajności superkomputerów nie podaje się surowej mocy, tylko moc po odpaleniu Linpacka. Teoretyczna moc jest tylko dodatkiem. Tianhe1A ma 2,5Pflops, a moc szczytowa teoretyczna to 4,7PFlops. Jednak pod uwagę brana jest tylko ta pierwsza realna.
W czym wiodą prym operacje stałoprzecinkowe? Renderowanie 3d, dekodowanie filmów/muzyki, gry. W zasadzie sa one wykorzystywane w podobnym stopniu.
Poza tym Ocenianie wydajności procesora po samym MIPS też jest bez sensu, bo nie pokaże to realnej wydajności. Innymi słowy tak na prawdę ani FLOPS, ani MIPS oddzielnie nie pokażą wydajności układu w realnych zastosowaniach. - najlepszym przykładem jest tu ARM cortex A9 który ma niby 2,5MIPS na takt, a w realnych zastosowaniach jest sporo słabszy od atoma czy bobcata, które maja także około 2,5MIPS na mhz.
"W czym wiodą prym operacje stałoprzecinkowe? Renderowanie 3d, dekodowanie filmów/muzyki, gry. W zasadzie sa one wykorzystywane w podobnym stopniu."
tutaj wkradł się skrót myślowy - te wymienione zastosowania bardzo mocno operują na FPU.
I do tego właśnie "pije", same flop'y to tylko jeden z "czynników" składających się na całą wydajność. I bez przesady z radeonami przykład miał być w świecie gierek, a to, że dodajesz odwrotna sytuacje z szyfrowaniem tylko potwierdza fakt ile warte jest określanie wydajności w samych flopach, mips itp. (mips -Meaningless Indicator of Processor Speed ;)).
Przykłady sobie darujmy, operacje stałoprzecinkowe to przeżytek... :P
Ten komputer jest zbudowany na procesorach RISC, a zatem jest to coś innego niż x86 od Intela czy AMD (CISC). Inna architektura i w pewnych zastosowaniach można sporo zyskać.
To pierwsze zdjęcie to wizualizacja czy faktycznie tak wygląda ten najszybszy komputer (w wizualizacji)
Przyjemny sprzęcik. Pewnie pozostanie #1 przez parę wydań, jak kiedyś Earth Simulator (który teraz się nawet do 500 nie łapie, bo go wypchnęły klepane od sztancy IBM i HP).
Żadnego cudowania z CUDAmi, qsub skrypt z "mpiexec -np 548352" i lecimy ;-) A raczej lecą np. cząstkowcy z symulacjami bazującymi na Monte Carlo, bo już do liczenia np. potencjału grawitacyjnego w symulacji kosmologicznej to i tak trzeba się będzie ograniczyć do skromnych 2k rdzeni.
Swoją drogą ciekawe jaki po roku używania będą mieli dzienny przerób zasilaczy, wentylatorów i całych płyt? Pewnie na 3 zmiany będą śmigać wkoło tej maszyny na małych rowerkach i wymieniać moduły.
A kiedy zrobią proce do domu? Była by trzecia firma.
P.S. A o grafice tam nie myślą?
Odpowiedz jest prosta. Nie zrobia "proców do domu" bo najzwyzczajnie byłoby strasznie mało nabywców. Architektura SPARC i x86(x86_64) nie sa zgodne, czytaj nie uruchomił byś systemu Windows. Na Linuksie, *BSD mogłbyś sobie pracować, ale patrzac na to jak popularne sa te systemy masz strasznie mały potencjalny rynek zbytu.
Najszybszy? No proszę, co za nowość ;) już 4ro rdzeniowy SB osiąga przy takim samym zegarze 128Gflops (czyli tyle ile Venus), a pracują z zegarami na poziomie 3,5Ghz, co nam daje 224Gflops - oczywiście z AVX - w przypadku FP128 mamy tylko 112 Gfops. Wrześniowe serwerowe 16rdzeniowe bulldozery będą osiągać przy takim samym zegarze co ten sparc aż 256Gflops przy FP128/AVX128/AVX256, a 8 rdzeniowe SB przy tym zegarze 256Gflops AVX256 i 128Gflops w FP128/AVX128.
A nie mogli by kupić po prostu jednego PS3 na nim robić obliczenia? Słyszałem że Cell to procesor wyprzedzający naszą epokę o 100 lat ;)
o milion. Cell to jeden rdzeń klasy PPC i 8 przyklejonych jednostek wektorowych(SEP) z bodaj power4(?). Cell wyprzedzał, ale nie aż tak mocno. Niby wydajność zmiennoprzecinkowa na poziomie i7 6core czy no ale nic dziwnego - w końcu jest 8 128bitowych jednostek wektorowych.
A o "przyszłościowości" cella świadczy to, że jest produkowany już tylko do PS3 i dalej nie będą go rozwijać ;)
z ostatnich 30 dni
odsłon: 160213
odsłon: 95626
odsłon: 34586
odsłon: 28571
odsłon: 26534
odsłon: 24857
odsłon: 22807
odsłon: 21851
odsłon: 19167
odsłon: 18984
odsłon: 18842
odsłon: 18235
odsłon: 17294
odsłon: 15657
odsłon: 15497
odsłon: 14984
odsłon: 14578
odsłon: 14432
odsłon: 13590
odsłon: 13556
odsłon: 13468
odsłon: 12435
odsłon: 11776