Karty graficzne

Testy: CPU i GPGPU

przeczytasz w 3 min.

Testy rdzeni procesora (CPU)

Rdzenie CPU A6-3650 pracują z zegarem o 300 MHz niższym niż w przypadku jego starszego brata A8-3850. Wiemy już, że czterordzeniowe Llano są zbliżone wydajnością do Athlona II X4/Phenoma II X4. Brak pamięci L3 nieco je spowalnia, a sytuacji nie poprawia niskie taktowanie.

Sandra 2011: Działania arytmetyczne (operacje stałoprzecinkowe)
GIPS - wydajność wyrażana w ilości instrukcji wykonywanych w ciągu sekundy

Intel Core i5 2400 3,1-3,4 GHz (4C/4T) 78
Intel Core i5 760 2,8-3,33 GHz (4C/4T) 70
Intel Core 2 Quad 9650 3 GHz (4C/4T) 55
Intel Core i5 670 3,46-3,73 GHz (2C/4T) 53
  Phenom II X4 980 BE 3,7 GHz (4C/4T) 53
Intel Core i3 2100 3,1 GHz (2C/4T) 52
Intel Core i5 661 3,33-3,6 GHz (2C/4T) 51
  A6-3650 3,5 GHz (4C/4T) - RAM 1800MHz 50
AMD Phenom II X4 965 BE 3,4 GHz (4C/4T) 49
  A8-A3850 2,9GHz (4C/4T) - RAM 1866MHz 48
Intel Core i3 550 3,2 GHz (2C/4T) 47
  A8-A3850 2,9GHz (4C/4T) - RAM 1333MHz 47
AMD Athlon II X4 645 3,1 GHz (4C/4T) 45
AMD Phenom II X4 840 3,2 GHz (4C/4T) 45
  A6-3650 2,6 GHz (4C/4T) - RAM 1866MHz 38
  A6-3650 2,6 GHz (4C/4T) - RAM 1333MHz 37
AMD Athlon II X3 455 3,3 GHz (3C/3T) 35
AMD Phenom II X3 720 2,8 GHz (3C/3T) 30
AMD Phenom II X2 565 BE 3,4 GHz (2C/2T) 25
Intel Core 2 Duo E5300 2,6 GHz (2C/2T) 24
AMD Athlon II X2 265 3,3 GHz (2C/2T) 23

 

Standardowe taktowanie rdzeni procesora pozwala przegonić w wydajności Athlona II X3 taktowanego zegarem 3,3 GHz. Podkręcenie do 3,5 GHz pozwala wygrać z Core i3 550, a nawet minimalnie pokonać Phenoma II X4 965, ale Core i3 2100 pozostaje poza zasięgiem. Pamiętajmy jednak, że jest to tylko jeden z wielu testów i jak wieść gminna niesie - niespecjalnie łaskawy dla procesorów AMD. Nieco inaczej sytuacja wygląda w przypadku obliczeń zmiennoprzecinkowych.

Sandra 2011: Działania arytmetyczne (operacje zmiennoprzecinkowe)
GFLOPS - wydajność wyrażana w ilości operacji wykonywanych w ciągu sekundy

Intel Core i5 2400 3,1-3,4 GHz (4C/4T) 46
AMD Phenom II X4 980 BE 3,7 GHz (4C/4T) 42
  A6-3650 3,5 GHz (4C/4T) - RAM 1800MHz 41
AMD Phenom II X4 965 BE 3,4 GHz (4C/4T) 40
Core 2 Quad 9650 3 GHz (4C/4T) 40
Intel Core i3 2100 3,1 GHz (2C/4T) 37
AMD Phenom II X4 840 3,2 GHz (4C/4T) 37
AMD Athlon II X4 645 3,1 GHz (4C/4T) 36
Core i5 670 3,46-3,73 GHz (2C/4T) 34
Core i3 550 3,2 GHz (2C/4T) 34
Core i5 760 2,8-3,33 GHz (4C/4T) 34
  A8-A3850 2,9GHz (4C/4T) - RAM 1866MHz 34
  A8-A3850 2,9GHz (4C/4T) - RAM 1333MHz 34
Intel Core i5 661 3,33-3,6 GHz (2C/4T) 33
  A6-3650 2,6 GHz (4C/4T) - RAM 1866MHz 32
  A6-3650 2,6 GHz (4C/4T) - RAM 1333MHz 31
AMD Athlon II X3 455 3,3 GHz (3C/3T) 29
AMD Phenom II X3 720 2,8 GHz (3C/3T) 25
AMD Phenom II X2 565 BE 3,4 GHz (2C/2T) 19
AMD Athlon II X2 265 3,3 GHz (2C/2T) 19
Core 2 Duo E5300 2,6 GHz (2C/2T) 18

 

Tym razem wydajność po podkręceniu rośnie wręcz lawinowo. Tutaj procesory AMD radzą sobie zdecydowanie lepiej. Core i5 2400 pozostaje poza zasięgiem, ale pamiętajmy, że jest to procesor znacznie droższy i wyposażony w zintegrowaną grafikę o zdecydowanie mniejszych możliwościach.

 Cinebench 11.5

Cinebench 11.5: wersja 64-bit
Renderowanie za pomocą wszystkich dostępnych rdzeni/wątków

Intel Core i5 2400 3,1-3,4 GHz (4C/4T) 5,1
AMD Phenom II X4 980 BE 3,7 GHz (4C/4T) 4,3
  A6-3650 3,5 GHz (4C/4T) - RAM 1800MHz 4,2
AMD Phenom II X4 965 BE 3,4 GHz (4C/4T) 4
Core i5 760 2,8-3,33 GHz (4C/4T) 4
Intel Core i5 750 2,66-3,2 GHz (4C/4T) 3,8
Core 2 Quad 9650 3 GHz (4C/4T) 3,7
AMD Phenom II X4 840 3,2 GHz (4C/4T) 3,6
AMD Athlon II X4 645 3,1 GHz (4C/4T) 3,5
  A8-A3850 2,9GHz (4C/4T) - RAM 1866MHz 3,5
  A8-A3850 2,9GHz (4C/4T) - RAM 1333MHz 3,4
  A6-3650 2,6 GHz (4C/4T) - RAM 1866MHz 3,2
  A6-3650 2,6 GHz (4C/4T) - RAM 1333MHz 3,1
Core i5 670 3,46-3,73 GHz (2C/4T) 3
Intel Core i3 2100 3,1 GHz (2C/4T) 3
Intel Core i5 661 3,33-3,6 GHz (2C/4T) 2,9
AMD Athlon II X3 455 3,3 GHz (3C/3T) 2,8
Core i3 550 3,2 GHz (2C/4T) 2,7
AMD Phenom II X3 720 2,8 GHz (3C/3T) 2,5
AMD Phenom II X2 565 BE 3,4 GHz (2C/2T) 2
AMD Athlon II X2 265 3,3 GHz (2C/2T) 1,9
Core 2 Duo E5300 2,6 GHz (2C/2T) 1,5

Wszędzie gdzie do akcji wkraczają wszystkie rdzenie, niewielkie Llano pokazuje na co jest stać. Core i3 2100 zostaje w tyle, a podkręcenie pozwala zbliżyć sie możliwościami do najszybszego Phenoma II X4. Nawet przy standardowym, niskim taktowaniu dwurdzeniowe procesory pozostają w tyle. 2 rdzenie + Hyper Threading to nie to samo, co 4 rzeczywiste rdzenie, nawet jeśli ich wydajność "rdzeń w rdzeń" jest większa.

Testy układu graficznego w obliczeniach ogólnego przeznaczenia (GPGPU)

Nie należy zapominać, że Llano to nie CPU, ale APU. Wydajność samych rdzeni procesora to nie wszystko, równie istotna jest wydajność rdzenia graficznego. Pomijając oczywiste zastosowania GPU, takie jak generowanie grafiki, układ graficzny może zostać wykorzystany do obliczeń ogólnego przeznaczenia (GPGPU), czyli takich, którymi do tej pory zajmował się jedynie procesor.

Zacznijmy od Sandry 2011 i testu Compute Shader, czyli sprawdzenie wydajności układu graficznego za pomocą DirectCompute. Z DirectCompute korzysta między innymi 3D Mark 11, ale szkoda że niewiele gier wykorzystuje tą technologię. Jedną z nielicznych jest DiRT 3, którzy korzysta z DirectCompute przy generowaniu HDAO (High Definition Ambient Occlusion).

Testy układu graficznego w obliczeniach ogólnego przeznaczenia

 

Sandra 2011: Obliczenia GPGPU - Compute Shader (DirectCompute)
[MPix/s] Średnia wydajność jednostek cieniowania

AMD A8-3850 – Radeon HD 6550D 95
OC AMD A6-3650 – Radeon HD 6530D 74
AMD A6-3650 – Radeon HD 6530D 62
Core i3 2100 - HD 2000 17

6 jednostek wykonawczych układu Intel HD 2000 w starciu z 320 jednostkami cieniowania układu AMD. Wynik mógł być tylko jeden. Radeon HD 6530D ma o jeden multiprocesor strumieniowy (tak zwana jednostka SIMD) mniej od 6550D (odpowiednio 4 i  5 - dla porównania z "dużymi" kartami Radeon, Cayman ma ich 24), a rdzeń graficzny pracuje z prawie z niższym taktowaniem. Widać, że mocno odbija się to na wydajności przy zastosowaniach GPGPU.

Testy układu graficznego w obliczeniach ogólnego przeznaczenia

Sandra 2011: Obliczenia GPGPU - OpenCL
[MPix/s] Średnia wydajność jednostek cieniowania

AMD A8-3850 – Radeon HD 6550D 100
OC AMD A6-3650 – Radeon HD 6530D 73
AMD A6-3650 – Radeon HD 6530D 60
Core i3 2100 3,1 GHz (2C/4T) 29

 

Układ HD 2000 zintegrowany z procesorem Core i3 wyłącza się z rywalizacji. OpenCL jest obsługiwane przez rdzenie procesora. O OpenCL mówi się coraz więcej. Ta technologia ma być alternatywą dla DirectCompute, a także innych technologii GPGPU wymagających do działania kart graficznych konkretnego producenta. OpenCL znalazło już zastosowanie w technologiach wideo. O rozwoju tej technologii piszemy w podsumowaniu. Odstawmy na bok syntetyki i sprawdźmy wydajność za pomocą benchmarka LuxMark, wykorzystującego silnik renderujący 3D LuxRender.

 

LuxMark  x64 1.0 – Benchmark OpenCL
[Próbki na sekundę] więcej = lepiej

AMD A6-3650 – OpenCL CPU + GPU 2040
AMD A8-3850 – OpenCL GPU 1814
AMD A8-3850 – OpenCL CPU 1303
AMD A6-3650 – OpenCL CPU 1285
AMD A6-3650 – OpenCL GPU 1173

 

Wedle testu LuxMark wydajność Radeona HD 6350D (4 jednostki SIMD) w OpenCL jest zbliżona do czterech rdzeni pracujących z taktowaniem 2,6 GHz. Połączenie sił (test CPU i GPU) skutkuje "wykręceniem" całkiem przywoitego wyniku. Radeon HD 6550D (A8-3850) jest już znacznie wydajniejszy od CPU (5 jednostek SIMD).

W tym benchmarku pojawia się "mały" problem. Na wykresach w teście CPU + GPU widnieje jedynie A6-3650. Otóż w tym teście taktowanie procesora graficznego w A8-3850 spadało do miminalnego poziomu i wynik był niższy niż w przypadku samego GPU. Jeśli chcecie sprawdzić wydajność swojego układu graficznego w porównaniu do Llano, możecie pobrać benchmark z oficjalnej strony Luxrender.

Jak wydajność Llano ma się do "dużych" maszyn? Sprawdziliśmy to na przykładzie komputera wyposażonego w Phenoma II X6 1100T 3,3 GHz i kartę Radeon HD 5770 (800 procesorów strumieniowych / 10 jednostek SIMD).

LuxMark  x64 1.0 – Benchmark OpenCL
[Próbki na sekundę] więcej = lepiej

Phenom II X6 + HD 5770 - CPU + GPU 6323
Radeon HD 5770 1GB - OpenCL GPU 4685
Phenom II X6 1100T 3,3 GHz - OpenCL CPU 2244

Na powyższym przykładzie widać, że dzięki współpracy CPU i GPU, tanie Llano mogą osiągać w OpenCL wydajność zbliżoną do sześciordzeniowego procesora Phenom II. Jeśli tylko programy wykorzystujące OpenCL, czy też ComputeShader będą częściej spotykane, może się okazać, że w APU Llano tkwi jeszcze cała masa niewykorzystanej mocy. Oczywiście takie programy już są, jednak ich liczba niestety nadal nie jest imponująca. Piszemy o tym szerzej na podstronie "Testy: zastosowania wideo" oraz w podsumowaniu.