Karty graficzne

Architektura układu

Producent wraz z premierą nowych kart, począwszy od serii HD5000, postanowił zmienić nazewnictwo rdzeni graficznych. Układ, który wg starej nomenklatury miał nosić nazwę RV870, otrzymał przydomek Cypress.

Jeżeli ktoś wraz z premierą układów GeForce GT200 NVIDII był pod wrażeniem umieszczenia w chipie ponad 1,4 mld tranzystorów, w przypadku układu AMD Cypress będzie pod jeszcze większym wrażeniem. Struktura układu oparta jest na 2,15 mld tranzystorach! Tak wielką liczbę bramek udało się zintegrować dzięki zmniejszeniu i dopracowaniu procesu technologicznego 40 nm. Cała struktura zajmuje jedyne powierzchnię 334 mm2.

Co w środku? Oczywiście kolejna, druga już generacja wydajnego silnika superskalarnego Terascale 2

W odróżnieniu od architektury znanej z poprzedniej generacji, mamy do czynienia ze zwielokrotnieniem liczby jednostek wykonawczych i dużymi zmianami jeśli chodzi o efektywność wymiany danych pomiędzy poszczególnymi blokami.

W Cypressie znajdziemy 20 klastrów SIMD, w których umieszczono po 16 stream procesorów. Na każdy z 320 poszczególnych procesorów SP przypada, co charakterystyczne dla układów ATi, po 5 (4+1) pojedynczych rdzeni strumienia, a więc cztery klasyczne jednostki stream oraz jedna przeznaczona dla funkcji specjalnych.

W skład takiego rdzenia wchodzą także jednostki przewidywania następujących po sobie instrukcji oraz specjalne rejestry wspomagające ich skoki i odgałęzienia (Branch, Purpose Registers). Łącznie do dyspozycji przetwarzania kodu otrzymujemy aż 1600 SP-u.

Podobne zwielokrotnienie w odniesieniu do RV770 dotyczy bloków jednostek teksturujących. W układzie Cypress na każdy klaster SIMD przypadają po 4 bloki TU, co daje sumę 80 takich jednostek. Podwojenie liczby bloków wykonawczych wchodzących w skład pojedynczej struktury spowodowało także wymuszenie poszerzenia pojemności oraz przepustowości pamięci podręcznych. Przepustowość pamięci cache L1, przy taktowaniu referencyjnym, wynosi już 1 TB/s.

Pamięć podręczną drugiego poziomu (L2) podwojono do 128 kB przypadających na każdy 64-bitowy kontroler pamięci. Sama przepustowość magistrali pomiędzy poziomami cache'u także została podniesiona i wynosi nieco ponad 0,4 TB/s.

TMU w Cypressie jest zdolne do adresowania tekstur o rozdzielczości do 16192 x 16192 pikseli. Zastosowano także nową metodę kompresji 32- i 64-bitowych bloków HDR (BC6/7) oraz algorytm filtrowana anizotropowego, który ma zadanie eliminacji problemu pogarszania jakości filtru w zależności od kąta wyświetlania. Wszystko to oczywiście w trosce o pełną zgodność z API DX11.

Nie sposób także pominąć dosyć istotnego elementu wpływającego na wydajność, jakim są Render Back Endy, popularnie nazywane jednostkami renderującymi. Jak nietrudno się domyśleć, ich także będzie więcej. Proces renderowania wspomagają dokładnie 32 jednostki tego typu.

Różnica w możliwościach i wydajności względem Radeona HD4870 będzie więc dwukrotna - także w trybach Multi-Sample Antyaliasing. Według producenta znacznie usprawniono odczyt bufora koloru AA – teraz także w postaci skompresowanej, podniesiono wydajność antyaliasingu adaptacyjnego oraz tzw. custom- filrów CFAA.

Wyróżnione powyżej zmiany, choć będą wpływać w znaczącym stopniu na wydajność, nie są tak naprawdę tymi najistotniejszymi. Największe, związane z dalszym ulepszeniem elastyczności i programowalności, dosięgnęły samego silnika graficznego. W przypadku nowego engine'u przeprowadzone usprawnienia mają swe źródło w wymaganiach pełnej zgodności z nowym kodem Shader Model 5.0. Znajdziemy więc wydajniejszy teselator szóstej generacji, łatwiej programowalny z poziomu samej powłoki oraz shaderów.

Nowy, ulepszony algorytm teselacji pozwolił ponadto na znacznie zredukowanie możliwych do wystąpienia przy tym procesie artefaktów. Duży skok wydajności, szczególnie w grach silnie opierających się na DX11, powinniśmy odczuć także dzięki podwojeniu możliwości silnika rasteryzacji (konwersja wektorów na piksele) oraz zdublowaniu buforów głębi Z.

W odniesieniu do poprzednich wersji API (także OpenGL), dużej korekty działania silnika dokonano dzięki możliwości wykorzystania nowych instrukcji pod kątem interpolacji (na poziomie shaderów). Nowe własności spowodowały także mniejsze straty na wydajności i jej podniesienie przy stałym obciążeniu struktury buforów.  Co również bardzo istotne, przyspieszono pracę shadera geometrii.

Widać więc, że układ Cypress to bardzo nowoczesna i elastyczna architektura nowej generacji, dająca już jakiś przedsmak tego, co nas czeka w najbliższym czasie, wraz z pojawieniem się Windows 7 i bibliotek DirectX 11.

Oczywiście sam układ to nie wszystko. W każdej karcie graficznej bardzo ważne są także pamięci. W przypadku serii HD5800 zdecydowano się ponownie na umieszczenie szybkich modułów GDDR5 współdziałających z 256-bitową szyną danych.

Interfejs pamięci w układzie Cypress został w stosunku do RV770 nieco zmodyfikowany i usprawniony. Spowodowało to m.in. możliwość instalowania modułów 5 Gbps (Memory Clock Temperature Compensation), a samemu kontrolerowi na dynamiczną, programową zmianę taktowania i napięcia zasilania bez wpływu na stabilność pracy samych modułów.