OpenCL - wsparcie zintegrowanej grafiki w aplikacjach użytkowych

Czy akceleracja GPU w przypadku zintegrowanych grafik przynosi realne korzyści w rzeczywistych aplikacjach?

CPU + GPU

Rozgrywka na zintegrowanych grafikach jest dziś już jak najbardziej możliwa, czego dowodzą nasze testy. Co jednak z bardziej poważnymi zastosowaniami? Czy można wykorzystać zintegrowaną grafikę tak, by podnieść komfort pracy i przyśpieszyć obliczenia? Skoro i tak w procesorze znajduje się GPU, dlaczego go nie wykorzystać?

Nie każdy kto zajmuje się bardziej ambitnymi pracami, ma możliwość zakupu platformy roboczej wyposażonej w mocny procesor i profesjonalną kartę graficzną. Takie treści można również tworzyć za pomocą mniej wydajnego sprzętu - jak na procesorach ze zintegrowaną grafiką do 600 zł. W tym przedziale cenowym mieszczą się zarówno APU AMD (Trinity i Richland), jak i procesory Intel Core i3 (Ivy Bridge).

Firma AMD od dłuższego czasu promuje swoje rozwiązanie pozwalające na wykorzystanie połączonych mocy CPU oraz GPU. APU będące połączeniem procesora i karty graficznej mają się do tego celu świetnie nadawać. Producent słusznie wskazuje, że w kartach graficznych jest cało mnóstwo niewykorzystanej mocy i mogą być one wykorzystywane nie tylko do gier.

Image

Porównanie możliwości obliczeniowych procesorów i kart graficznych (źródło: AMD)

W naszych testach wykorzystaliśmy dwa procesory Intela oraz jeden AMD:

Model Intel Core i3-3240 Intel Core i3-3225 AMD A10-6700
Podstawka LGA 1155 LGA 1155 FM2
Nazwa kodowa Ivy Bridge Ivy Bridge Richland
Litografia 22-nm 22-nm 32-nm
Rdzenie/wątki 2/4 2/4 2/4
Taktowanie CPU 3,4 GHz 3,3 GHz 3,7-4,3 GHz
Układ graficzny HD 2500 HD 4000 Radeon HD 8670D
Taktowanie GPU 650-1050 MHz 650-1050 MHz 844 MHz
TDP 55 W 55 W 65 W

W obu platformach wykorzystaliśmy ten sam dysk SSD, oraz tę samą pamięć RAM z identycznymi ustawieniami (dla każdego układu graficznego przypisane było 1GB pamięci taktowanej 1866 MHz).

Przypomnijmy, że rodzina desktopowych procesorów Intel Haswell jeszcze nie powiększyła się o modele Core i3 – wciąż czekamy na ich premierę. Niestety nie udało się nam zdobyć do porównania modelu Core i3-3245, który jest cenowym odpowiednikiem A10-6700. Jego rdzenie procesora są jednak tylko 100 MHz szybsze od Core i3 3225, a układ graficzny charakteryzuje sie identycznymi parametrami. Najtańszy Core i5, czyli model 3330 kosztuje już ponad 700 zł i na dodatek wyposażony jest w słabszy model układu graficznego (HD 2500).

Platforma testowa

Image

Testy - grafika 2D

W testach wykorzystaliśmy program Corel AfterShot Pro 1.2.0.7.

Image

Aby uruchomić wsparcie OpenCL wystarczy w preferencjach w menu Hardware Accelaration "zaptaszkować" opcję Use OpenCL. Nowa wersja AfterShot Pro była chwalona za świetną obsługę procesorów wielordzeniowych i faktycznie tak jest. Obsługa OpenCL ma jednak minus w postaci opcji Utilization – użytkownik sam musi sprawdzić, które ustawienie daje mu najwyższą wydajność.

Image

Corel AfterShot Pro 1.2.0.7 - konwersja RAW do JPEG - [s] mniej - lepiej

AMD A10-6700 OpenCL wł. 36
Core i3-3240 OpenCL wył. 39
AMD A10-6700 OpenCL wył 41
Core i3-3225 OpenCL wył. 42
Core i3-3225 OpenCL wł. 49
Core i3-3240 OpenCL wł. 52

Test polegał na konwersji serii zdjęć RAW do JPEG wraz z wyostrzeniem oraz efektem Bleach Bypass. W przypadku platformy Intel, po włączeniu akceleracji GPU obciążenie procesora jest minimalnie niższe, a wykorzystanie GPU na niskim paroprocentowym poziomie (w porywach do 15% w przypadku Intel HD 4000). Efektem jest niższa wydajność. W przypadku APU AMD wykorzystanie GPU skakało od zera do niemal pełnego obciążenia, co z pewnością nie jest bardzo efektywnym sposobem (przypomnijmy, że w przypadku wykorzystania zewnętrznej karty graficznej Radeon HD 7770 otrzymaliśmy stałe obciążenie na poziomie 30-40%), jednak kilkunastoprocentowe przyśpieszenie operacji jest faktem.

Testy - grafika 3D

LuxMark jest popularnym benchmarkiem opartym na silniku renderującym LuxRender.

Image

Przykłady renderingów w benchmarku LuxMark

Dzięki pluginom można go wykorzystać w takich programach jak Blender, 3DS Max, SketchUp, C4D, DAZ Studio, XSI, Poser, czy Carrara.

Image

Luxmark 2.0 – scena Sala - [SPS – próbki na sekundę] więcej = lepiej

Core i3-3225 CPU + GPU 459
AMD A10-6700 CPU + GPU 372
Core i3-3240 CPU + GPU 359
Core i3-3240 CPU 268
Core i3-3225 CPU 261
AMD A10-6700 CPU 234
AMD A10-6700 GPU 234
Core i3-3225 GPU 231
Core i3-3240 GPU 110

W każdym przypadku możemy zaobserwować wzrost wydajności – im mocniejsza karta graficzna tym przyśpieszenie jest większe. To doskonały przykład jak powinna działać akceleracja GPU. Potrafi ona wykorzystać w maksymalny sposób zarówno procesor, jak i wszystkie układy graficzne w systemie (np. grafika zintegrowana i zewnętrzna). 65-watowy model APU AMD osiąga dość niski wynik w połączeniu CPU + GPU – wynika to z tego, że oba układy dzielą się budżetem energetycznym i nie mogą pracować równocześnie z pełną mocą. Znajdujący się na tym samym pułapie cenowym A10-6800K będzie osiągał znacznie lepsze wyniki CPU + GPU, ze względu na TDP równe 100 W.

Sony Vegas Pro

Sony Vegas Pro, obok Adobe Premiere jest jednym z najlepszych programów do montażu wideo.

Image

Aby włączyć akcelerację GPU, należy wybrać odpowiednią opcję w preferencjach

Sony Vegas Pro 12 (670) 64-bit - renderowanie wideo 720p - [minuty, sekundy] mniej = lepiej

AMD A10-6700 OpenCL wł. 9,51
Core i3-3240 OpenCL wył. 15,19
Core i3-3225 OpenCL wył. 15,42
Core i3-3225 OpenCL wł. 16,3
AMD A10-6700 OpenCL wył 16,5
Core i3-3240 OpenCL wł. 38,43

W przypadku APU włączenie akceleracji OpenCL skutkuje skróceniem czasu renderowania o 33%. Wsparcie GPU w zastosowaniach wideo już od dawna sprawdza się świetnie i widać, że nawet wsparcie zintegrowanej grafiki może przynieść znakomite efekty. W przypadku Intel Ivy Bridge akceleracja jest zupełnie nieprzydatna. Zastosowanie HD 4000 nic nie zmienia, a HD 2500 znacznie wydłuża czas renderowania finalnego filmu.

Image

Na powyższym zrzucie ekranowym widać, skąd biorą się fatalne wyniki Intela. Przy włączeniu akceleracji układ graficzny obciążany jest w 100%, natomiast zużycie procesora spada do minimum.

vReveal

Image

vReveal 3.2 - renderowanie ulepszonego wideo 720p - [s] mniej = lepiej

AMD A10-6700 – akceleracja wł. 11,24
Core i3-3240 – akceleracja wył. 29,15
Core i3-3225 – akceleracja wył. 30,18
AMD A10-6700 – akceleracja wył. 32,12

Niestety, twórcy programu nie pomyśleli o wsparciu układów graficznych innych niż AMD i NVIDIA. Na zintegrowanych układach graficznych Intela akceleracja po prostu nie działa. Włączenie do akcji GPU w APU AMD przynosi świetne efekty.

Testy - kompresja

WinZip jest pierwszym archiwizerem, który otrzymał wsparcie OpenCL. Szkoda jedynie, że jest to program płatny - niemal wszyscy wykorzystują 7-ZIPa, który jest darmowy oraz bardzo szybki i bez wsparcia GPU.

Image

Aby włączyć akcelerację OpenCL należy zaznaczyć odpowiednią opcję (Enable), w opcjach (menu System).

Image

WinZip 17.5 - tworzenie archiwum - [s] mniej = lepiej

Core i3-3240 OpenCL wł. 64
Core i3-3240 OpenCL wył. 65
AMD A10-6700 OpenCL wł. 73
AMD A10-6700 OpenCL wył 75
Core i3-3225 OpenCL wł. 75
Core i3-3225 OpenCL wył. 77

Obciążenie GPU jest niskie i często zegar rdzenia graficznego pozostaje na najniższym poziomie. W przypadku obu konstrukcji korzyści są niewielkie.

Image

Czy to oznacza, że akceleracja OpenCL w WinZip to ściema? Nic podobnego. Nasze testy wykazały, że działa ona zdecydowanie lepiej na kartach graficznych opartych na nowszej architekturze. Dużo może zależeć również od rodzaju kompresowanego materiału.

Testy - BasemarkCL

BasemarkCL jest wyjątkowo ciekawym benchmarkiem posiadającym tylko jedną wadę – jest on narzędziem płatnym. Unikalność tego narzędzia wynika z testowania pełnego spektrum zastosowań - sprawdza on wydajność w OpenCL za pomocą silnika fizycznego, przetwarzania obrazu, czy też grafice 3D.

Image

BasemarkCL – ogólna punktacja - [punkty]

AMD A10-6700 56,04
Core i3-3225 (HD 4000) 36,78
Intel Core i3-3240 (HD 2500) 17,19

BasemarkCL – Physics - [punkty]

AMD A10-6700 25,19
Core i3-3225 (HD 4000) 22,71
Intel Core i3-3240 (HD 2500) 11,93

Sprawdza on wydajność układu graficznego w obliczeniach z użyciem OpenCL w różnych zastosowaniach.

Image

BasemarkCL – General - [punkty]

Core i3-3225 (HD 4000) 216,93
AMD A10-6700 156,05
Intel Core i3-3240 (HD 2500) 77,55

BasemarkCL – Image - [punkty]

AMD A10-6700 54,59
Core i3-3225 (HD 4000) 16,61
Intel Core i3-3240 (HD 2500) 6,42

Są to między innymi efekty fizyczne (m.in. symulacja zachowania miękkich materiałów, czy też cząsteczek wody), jak i przy manipulacji obrazem oraz wideo.

Image

BasemarkCL – Video - [punkty]

AMD A10-6700 518,02
Core i3-3225 (HD 4000) 210,28
Intel Core i3-3240 (HD 2500) 117,53

Praktycznie w każdym przypadku APU AMD jest górą, nie licząc testów General, które zawierają między innymi generowanie fraktali.

Testy - PCMark 8

Nowy PCMark 8 przedstawia się interesująco dla wszystkich którzy chcieliby przetestować wydajność swojego komputera. Możliwość testowania w rzeczywistych aplikacjach Adobe i Microsoft jest zarazem niesamowitą zaletą, jak i wadą nowego PCMarka 8. Test w tych aplikacjach wiąże się bowiem z ich instalacją – co jest jednak nieco kłopotliwe, jeśli nie jesteśmy w posiadaniu, ani nie używamy tych aplikacji. Można wykorzystać w tym celu wersje testowe, czyli 30-dniowe wersje Adobe Creative Cloud lub Microsoft Office 365.

Image

Test Home symuluje aktywność i działania podczas typowego korzystania z komputera w domu. Nie jest zbyt wymagający dla sprzętu i dlatego idealnie nadaje się do testowania słabszych komputerów desktop, notebooków i tabletów. Benchmark Home składa się z następujących testów:

  • przeglądanie stron internetowych (Web Browsing)
  • praca z edytorem tekstu (Writing)
  • niewymagające gry (Casual Gaming)
  • edycja zdjęć (Photo Editing)
  • konferencja wideo (Video Chat)

Przed uruchomieniem testu możemy wybrać które z urządzeń będzie odpowiedzialne za obliczenia OpenCL - procesor (CPU) czy karta graficzna (GPU).

PCMark 8 Proffesional - test Home - [punkty] więcej = lepiej

AMD A10-6700 OpenCL GPU 3703
AMD A10-6700 OpenCL CPU 3585
Core i3-3225 OpenCL CPU 3432
Core i3-3240 OpenCL CPU 3226
Core i3-3225 OpenCL GPU 3186
Core i3-3240 OpenCL GPU 2700

Wykorzystanie do obliczeń OpenCL zintegrowanych grafik w procesorach Ivy Bridge skutkuje obniżeniem wydajności. Dzięki włączeniu do akcji Radeona wbudowanego w APU można zyskać jeszcze trochę wydajności.

HSA i hUMA

Wsparcie GPU w obliczeniach otrzymują programy do montażu wideo, do obróbki grafiki, a nawet archiwizery. Wiadomo, że akceleracja GPU przy użyciu zewnętrznych kart graficznych potrafi czynić cuda. Dotyczy to zwłaszcza programów do renderingu i montażu wideo, gdzie karta graficzna potrafi przyśpieszyć pracę lepiej niż najdroższy i najmocniejszy procesor. Czy jednak zintegrowane układy graficzne są równie użyteczne? W testach OpenCL wykorzystaliśmy następujące aplikacje i benchmarki:

  • Core AfterShot Pro 1.2.0.7
  • Sony Vegas Pro 12
  • vReveal 3.2
  • WinZip 1.75
  • LuxMark 2.0
  • BasemarkCL
  • PCMark 8

Pomimo tego, że układy graficzne Intel HD 4000 i HD 2500 w procesorach Ivy Bridge oferują wsparcie OpenCL, to pożytek z ich wykorzystania jest żaden – jedyny pozytywny wyjątek to LuxRender. Żadna rzeczywista aplikacja nie przyśpieszyła dzięki OpenCL GPU, jedyne korzyści zaobserowaliśmy w benchmarkach. Pozostaje nam czekać na rodzinę procesorów Intel Haswell, gdyż układy graficzne montowane w tych procesorach są znacznie mocniejsze (zwłaszcza HD 4600). Testy w PCMark 8 przy użyciu Core i5 4670K (zintegrowana grafika Intel HD 4600) wskazują na to, że włączenie do akcji GPU wpływa pozytywnie na wynik końcowy. O ile wsparcie OpenCL w integrach Intel HD 2500/HD 4000 jest symboliczne, to jednak świetnie mogą się one sprawdzić w innym zastosowaniu – konwersji wideo za pomocą sprzętowego dekodera QuickSync. W tym zastosowaniu zintegrowane grafiki Intela nie mają sobie równych, chociaż niesamowita szybkość konwersji może odbić się na jakości konwertowanego materiału.

Image

WinZip z akceleracją OpenCL działający na karcie graficznej z architekturą GCN

W przypadku konstrukcji AMD, wbudowany Radeon przynosi znacznie więcej korzyści, co widać po programach do zastosowań wideo, czy też grafiki 2D. WinZip niespecjalnie błysnął w tym towarzystwie, ale znacznie lepiej sprawdza się na kartach graficznych opartych na architekturze GCN, podczas gdy w Richland wciąż mamy do czynienia z VLIW4. Wiele może zależeć również od rodzaju kompresowanego materiału.

Niedaleka przyszłość - HSA i hUMA

Image

Koncern AMD oraz kilka innych firm założyło fundację HSA (Heterogeneous Systems Architecture), która czuwa nad rozwojem platform i oprogramowania dla systemów heterogenicznych. Ich najnowszym osiągnięciem jest technologia hUMA (Heterogeneous Uniform Memory Access). Dotychczasowe rozwiązanie nUMA wydłużało czas wykonywania operacji na dwóch układach równocześnie, bowiem instrukcje musiały być przesyłane do dwóch różnych pamięci.

Image

hUMA  wprowadza pamięć współdzieloną, z której może korzystać zarówno procesor, jak i układ graficzny. Dzięki tej technologii obliczenia prowadzone równocześnie przez CPU i GPU mogą wskoczyć na nowy poziom wydajności.

Wybrane dla Ciebie
ZACZEKAJ! ZOBACZ, CO TERAZ JEST NA TOPIE