Nvidia pod bramką przeciwnika ...
chip NV40 na karcie GeForce 6800 GT
Po bardzo nerwowym dla nVidii roku 2003 i problemowym chipie NV30, firma ta - pretendująca do miana lidera w branży układów graficznych - może chyba nareszcie odetchnąć z ulgą. Jej najnowszy chip NV40 wyswobodził się ze wszystkich niedoskonałości poprzednika i jak na razie emanuje czystym blaskiem.
W 2003 roku nVidia 'hucznie' świętowała wprowadzenie swojego nowego chipa o nazwie kodowej NV30, określając to wydarzenie jako "świt w grafice komputerowej". No niestety, ten świt okazał się dla nVidii bardzo pochmurny. Jeszcze przed pojawieniem się w sklepach kart graficznych GeForce 5800 okazało się, że nVidia ma 'pewne' problemy z nowym GPU. Rozpoczęła się nagonka prasowa, a największym echem odbiła się wysoka temperatura pracy NV30, w efekcie której chip trzeba było chłodzić czym, co - jak zapewne większość z Was pamięta - nie bez przesady nazwano suszarką.
nVidia przyznała wówczas, że GeForce FX był bardzo trudnym projektem, kombinacją wielu technik Nvidii i 3dfx. Wynikiem tej współpracy był produkt najbardziej urozmaicony pod względem możliwości, lecz przez jego skomplikowaną architekturę, przy użyciu ówczesnych technik produkcji nie było łatwo wyprodukować chip pracujący z wysokimi częstotliwościami.
Mało kto kwapił się do zakupu GeForce 5800 i GeForce 5800 Ultra. Z procesora NV30 wyewoluowały dwie nowe architektury NV31 i NV34, niestety gubiąc po drodze niektóre z cech, o których nVidia hucznie mówiła ogłaszając nadejście 'świtu'.
Wspominamy o tym nie bez powodu, bo właśnie na tym potknięciu skorzystał największy konkurent nVidii, firma ATi, przeciągając na swoją stronę wielu, wielu graczy, oferując sprawdzoną i bardzo wydajną architekturę R300. nVidia wyraźnie straciła przewagę w wyścigu technologicznym. Swojego czasu bardzo udane i lubiane przez graczy karty z serii GeForce4 Ti-4200/4600, byliśmy zmuszeni upgrade'ować na Radeony 9700 i Radeony 9800 (wyobraźmy sobie jak potoczyły by się losy nVidii, gdyby do wydajności jaką oferowały Ti-4600 dołożyć jedynie obsługę DirectX 9). Sam będąc niegdyś 'wielbicielem' produktów z pod znaku 'nVidia', od ponad roku w swoim komputerze nie miałem karty innej jak ATi Radeon.
| nVidia NV30 | nVidia NV35/NV38 | ATi R300 | ATi R350/R360 | |
| modele kart | 5800 5800 Ultra | 5900 5900 Ultra 5950 Ultra | 9700/Pro | 9800/Pro 9800ProII 9800 XT |
| ilość tranzystorów | 125 mln | 130 mln | 105 mln | 105 mln |
| technologia wykonania | 130nm | 130nm | 150nm | 150nm |
| Silnik graficzny | CineFX 2.0 Pixel Shader 2.0 Vertex Shader 2.0 | Smartshader 2.1 Pixel 2.0 Vertex 2.0 | ||
| procesory vertexów | macierz | macierz | 4 | 4 |
| liczba potoków | 4x2 | 4x2 | 8x1 | 8x1 |
| szyna do pamięci | 128-bitowa DDR2 | 256-bitowa DDR | 256-bitowa DDR | 256-bitowa DDR/DDR2 |
| technologie | Lightspeed III Intellisample | Lightspeed III Intellisample HTC UltraShadow | SmoothVision 2.0/2.1 Hyper Z III/III+ | |
| ATi R420 | nVidia NV40 | |
| modele kart | X800 Pro X800 XT | 6800 6800 GT 6800 Ultra |
| ilość tranzystorów | 160 mln | 222 mln |
| technologia wykonania | 130nm | 130nm |
| Silnik graficzny | CineFX 3.0 Pixel 3.0 Vertex 3.0 | |
| procesory vertexów | 6 | 6 |
| liczba potoków | 16x1 | 16x1 |
| szyna do pamięci | 256-bitowa DDR3 | 256-bitowa DDR3 |
| technologie | NVIDIA HPDR LMA III Intellisample 3.0 UltraShadow II |
Nic więc dziwnego, że już kilka miesięcy po premierze chipów z serii NV3x, nVidia zarzuciła prasę plotkami o swoim nowym projekcie pod kodowym oznaczeniem NV40. Jednocześnie cały czas ratując sprzedaż swoich chipów ciągłymi poprawkami: 5800 na 5900, 5900 na 5950, 5600 na 5700, czy najbardziej udane koło ratunkowe: FX 5900 XT.
W tym czasie pojawiało się niezywkle dużo spekulacji wokół najnowszych procesorów graficznych nVidii. Większość z nich była tylko czystymi plotkami, opartymi wyłącznie na domysłach - do tego stopnia, że stały się obiektem żartów i fałszywych informacji (w szczególności dotyczyły ilości pobieranego prądu, wydzielanego ciepła i sposobu chłodzenia). Powstrzymywaliśmy się od zamieszczania jakichkolwiek nowinek, do czasu ogłoszenia oficjalnej specyfikacji. Kurtyna opadła 14 kwietnia 2004 roku. nVidia wypuściła do sieci wszystkie ważne informacje techniczne na temat swojego nowego chipa i opartych na nim najnowszych kart graficznych: GeForce 6800 i 6800 Ultra.
Po zapoznaniu się ze specyfikacją nie było już wątpliwości, karty GeForce 6800 będą nowymi "kilerami" wydajności. Przy 16 potokach renderujących i częstotliwości taktowania GPU ~400MHz (najszybsza wersja ULTRA) otrzymamy prędkość wypełniania na poziomie 6400 Megatexeli/sekundę, a to oznacza, że GeForce 6800 teoretycznie może być o 70% wydajniejszy od GeForce FX 5950 Ultra.
z nowym VPU nVidii zobaczmy trzy karty z serii 6800
| GeForce FX 5950 | GeForce 6800 | GeForce 6800 GT | GeForce 6800 Ultra | |
| nazwa kodowa GPU | NV38 | NV 40 | NV 40 | NV 40 |
| technologia wykonania | 130nm | 130nm | ||
| Silnik graficzny | CineFX 2.0 Pixel Shader 2.0 Vertex Shader 2.0 | CineFX 3.0 Pixel Shader 3.0 Vertex Shader 3.0 | ||
| procesory vertexów | macierz | 5 | 6 | 6 |
| liczba potoków | 8 | 12 | 16 | 16 |
| częstotliwość taktowania | 475 Mhz | 325 Mhz | 350 Mhz | 400 MHz |
| wydajność wypełniania | 3800 MP/s | 3900 MP/s | 5600 MP/s | 6400 MP/s |
| pamięci | 950 MHz | 700 MHz | 1000 MHz | 1100 MHz |
| przepustowość | ~30 GB/s | ~22 GB/s | ~31 GB/s | ~34 GB/s |
| szyna do pamięci | 256-bitowa DDR | 256-bitowa DDR | 256-bitowa DDR3 | 256-bitowa DDR3 |
| technologie | LMA III Intellisample HTC UltraShadow | NVIDIA HPDR LMA III Intellisample 3.0 UltraShadow II | ||
| RAMDAC | 2 x 400 MHz | 2 x 400 MHz | ||
To, że producenci VPU pójdą w kierunku pomnożenia potoków renderujących, było do przewidzenia. To jedyny sposób aby zwiększyć dziś wydajność karty. Zrobiła tak również firma ATi w swoim X800, a dzięki wyższym zegarom, jej współczynnik wydajności jest nawet o 2000 MP/s większy niż GeForce 6800 Ultra. To dużo. Bardzo dużo.
Jednak nVidia dysponuje odpowiednim orężem do walki z nowymi, bardzo wydajnymi chipami ATi (ATi oficjalnie ogłosiła swój procesor R420 niecały miesiąc po nVidii). Nie poprzestała wyłącznie na podniesieniu wydajności swojego nowego GPU. NV40 zyskał także nowy silnik graficzny z jednostkami Pixel Shader i Vertex Shader w wersji 3.0. Jak już wspominaliśmy podczas naszej recenzji Radeona X800, nowy model cieniowania w wersji 3.0 - ShaderModel 3.0 - dający kartom GeForce 6800 pełną obsługę DirectX 9.0c, ma wnieść duży potencjał w nowoczesne gry 3D. Nowy patch 1.2 do gry FarCry pojawi się już lada chwila oficjalnie, a zapowiadany na początku sierpnia DooM III już natywnie ma wykorzystać zalety PS 3.0.
Szczegółowa specyfikacja NV40
chip NV40 na karcie GeForce 6800
- 220 milionów tranzystorów, technologia wykonania 0.13 micron "low-k"
- 16-potokowa, superskalarna architektura z 6 jednostkami vertex,
- silnik graficzny CineFX 3.0:
* 128-bitowa zmiennoprzecinkowa prezycja kolorów (rendering w 32-bitowej, 64-bitowej i 128-bitowej palecie koloru)
programowalny Vertex Shader 3.0
* Displacement Mapping i Tone Mapping w czasie rzeczywistym
* nieskończona długość programów vertexowych
programowalny Pixel Shader 3.0
* 16 i 32 bitowa zmiennoprzecinkowa precyzja
* 8 operacji PixelShader na pikselu,
* do 16 textur w jednym prześciu,
* nieskończona długość programów pixelowych
* 128 operacji PixelShader w jednym cyklu zegara,
* obsługa tekstur w formacie sRGB
* obsługa kompresji tekstur DirectX i S3TC - pełna obsługa DirectX 9.0c (rozszerzona obsługa Pixel Shaderów)
- NVIDIA HPDR (High-Precision Dynamic-Range)
technologia obsługująca zmiennoprzecinkowe filtrowanie, teksturowanie, wtapianie i antyaliasing,
- Intellisample 3.0
- 2, 4, 8 i 16-krotne pełnoekranowe wygładzanie krawędzi (FSAA) metodą 'obracanej siatki'
- 2, 4, 8, i 16-krotne filtrowanie anizotropowe
- ulepszona wydajność kompresji HCT (High-resolution compression),
- nowe bezstratne algorytmy kompresji koloru, tekstur i bufora Z, oraz szybkiego czyszczenia bufora Z,
- UltraShadow II
- do 4 razy wydajniejszy od UltraShadow (w NV35) w grach wykorzystujących cienie w czasie rzeczywistym,
- 256-bitowy interfejs do pamięci GDDR3
- krzyżowy kontroler pamięci (4 x 32bit)
- Lightspeed Memory Architecture III - pamięci taktowane częstotliwością 1100 MHz, co łącznie daje maks. przepustowość do 34 GB/s
- obsługa PCI Express x16 lub AGP 8x
- zintegrowany podwójny (10-bitowy) RAMDAC 400 MHz
umożliwiający wyświetlanie obrazu w rozdzielczości do 2048x1536 przy odwieżaniu 85Hz; - nowy zintegrowany videoprocesor,
* do sprzętowego dekodowania MPEG,
* sprzętowa akceleracja WMV9,
* skalowanie i filtrowanie sygnału video - NTSC/PAL do rozdzielczości 1024x768,
* dekoder DVD/HDTV > MPEG2 do rozdzielczości 1920x1080i;
- * sprzętowa komepnsacja ruchu (Motion Compensation), iDCT, DCT i konwersja koloru
* zintegrowany 165 MHzowy TMDS transmitter (DVI 1.0 / HDMI i HDCP)
- NVIDIA Digital Vibrance Control 3.0 (DVC)
W swojej nowej serii GeForce 6 nVidia szczyci się przede wszystkim superskalarną architekturą. W dokumentacji czytamy, że nowa architektura może podwoić ilość wykonywanych operacji w jednym cyklu zegara. A cóż to znaczy? Otóż w tradycjnej, nieskalarnej architekturze, w każdym potoku renderującym była tylko jedna jednostka cieniująca (Shader), która w jednym cyklu zegara mogła wykonać maksymalnie 4 operacje na pixelu.
W NV40 każdy z potoków pikseli ma już dwie jednostki cieniujące (Shader Unit1 i Shader Unit2) i jedną zmiennoprzecinkową jednostkę tekstur (Texture). Dzięki temu na GeForce6 w jednym cyklu zegara liczba operacji na pixelu mogła wzrosnąć dwukrotnie, czyli do ośmiu.
Różnica pomiędzy tymi architekturami jest znacząca, jednak gdybyśmy chcieli dokładniej zaprezentować Wam gdzie następuje realny zysk, musielibyśmy wyjaśnić precyzyjniej różnice pomiędzy "instrukcją" (funkcją do zrealizowania) a "operacją na pikselu" (obliczenia zgodnie z zadaną instrukcją).
Sumując, superskalarna architektura NV40 umożliwia wykonanie do czterech instrukcji i do 8 operacji na pikselu, podczas gdy stara architektura nVidii umożliwiała wykonanie jedynie dwóch instrukcji i czterech operacji. Brzmi to przekonywująco, aczkolwiek to nadal tylko techniczne założenia, które czasami mają swoje drobne "kruczki', jak np: fakt, że tylko pierwsza jednostka cieniująca może wykonywać dwa typy instrukcji (operacje arytmetyczne i operacje odczytu tekstur), druga już tylko jeden typ instrukcji (operacje arytmetyczne).
Zostawmy jednak cykle, instrukcje, operacje, itp, bo choć odgrywają one ważną rolę w architekturze GPU, to i tak 'jednostką' która najbardziej ze wszystkich dociera do świadomości wszystkich potencjalnych nabywców kart jest 'FPS' ;) . Przyglądnijmy się bliżej kartom GeForce 6800.
Karty GeForce 6800
karta GeForce 6800 GT bez chłodzenia
W zależności od produktu finalnego, na kartę lutowany jest chip z zablokowanymi 4 potokami (GeForce 6800) lub wersja 'pełnowartościowa' z 16 potokami (GT i Ultra). Pomiędzy sobą karty różnią się jeszcze drobnymi szczegółami technicznymi, jak np: mocniejszymi konwerterami napięcia - na zdjęciu powyżej zakryte dodatkowym radiatorem. Może to w pewien sposób ochłodzić zapędy do prób odblokowania wszystkich 16 potoków w GeForce 6800, gdyż prawdopodobie sama płytka tej karty nie jest przygotowana do tego, aby dostarczyć procesorowi z 16 potokami tak dużego prądu (szacuje się że jest od 20 do 25% więcej energii).
... i karta GeForce 6800
Wiele opinii i domysłów wymieniono na temat wymagań energetycznych nowych kart 6800. W dokumentach prasowych nVidiia dobitnie podkreśla, że do zasilania kart 6800 i 6800 GT wystarczy PSU o mocy 300W. Dowiadujemy się z nich również, że GeForce 6800 pod pełnym obciążeniem może pobierać od 80 do 110W energii (odpowiednio 6800, 6800GT i 6800 Ultra). To oczywiste, że sama karta nie potrzebuje zasilacza o większej mocy, a nVidia za wszelką cenę chce obalić mit, jakoby to karta graficzna pobierała najwięcej energii w całym komputerze. Trudno jednak wyobrazić sobie nowoczesny komputer z kartą 6800GT (~90W energii), bez mocnego procesora np: 3.0 GHz+ (od 80 do 90W energii), 1 GB RAMu (~20W), napędów CDRW-DVD (~20), dwóch dysków twardych (~60W), zaawansowanego chłodzenia obudowy i kilku urządzeń podpiętych pod porty USB. To już niestety wymaga solidnego, mocnego zasilacza, przynajmniej o mocy 360W. (dla przykładu, Chieftec HPC-360-202 pod łącznym obciążeniem napięć 3.3V + 5V + 12V, może stabilnie pracować przy maksymalnym poborze energii 325W. Natomiast 300Watowy Chieftec GPS-300AB-100L już tylko 275W)
Obie karty wyposażone są w jedno gniazdko zasilania zewnętrznego molex z zasilacza ATX.
Wersja ULTRA ma ich aż dwa!
Do chłodzenia procesora wystarczy już niewielki aluminiowy radiator i pracujący w miarę cicho wiatraczek. Wiatrak ma dynamiczną regulację prędkości, co oznacza, że w szczególnym przypadku może jednak o sobie dać znać. Można się o tym przekonać podczas startu komputera, gdy wiatrak rozpoczyna pracę z maksymalną prędkością obrotów i cichnie dopiero po kilku sekundach.
Referecyjny system chłodzenia kart 6800 GT przewiduje również aktywne chłodzenie kości pamięci (1000 MHz). W modelu 6800, gdzie pamięci pracują z dużo niższą częstotliwością (700 MHz), chłodzenie ich nie jest już wymagane przez specyfikację.
chłodzenie karty GeForce 6800 GT
Podobnie jak poprzednie układy, NV40 wyposażony jest w diodę termiczną zapobiegającą jego przegrzaniu. Gdy temperatura procesora przekroczy wartość krytyczną - dla 6800 jest to 135°C, dla 6800 GT już tylko 120°C - na ekranie monitora pojawi się stosowny komunikat, a częstotliwość taktowania GPU zostanie obniżona o połowę do czasu, aż jego temperatura spadnie. Podczas naszych testów monitor temperatury nVidii wskazywał od 60 (w trybie 2D) do 80°C (podczas obciążenia 3D).
Sparkle GeForce 6800
Wyposażona w układ NV40 (12 potokowy), taktowany częstotliwością 325 MHz, oraz 128MB pamięci DDR pracujących z częstotliwością 700 MHz. Kości pamięci Hynix z czasem dostępu 2.8 ns.
Wyjścia: DVI 2.0, S-Video oraz klasyczne D-Sub. Z tyłu karty dodatkowe złącze zasilania molex 12V.
PNY GeForce 6800 GT
Wyposażona w układ NV40 (16 potokowy), taktowany częstotliwością 325 MHz, oraz 256MB pamięci GDDR3 pracujących z częstotliwością 1000 MHz. Kości pamięci SAMSUNG z czasem dostępu 2.0 ns.
Wyjścia: DVI 2.0, S-Video oraz klasyczne D-Sub. Z tyłu karty dodatkowe złącze zasilania molex 12V.
CineFX 3.0 i Shader Model 3.0
Piękna syrenka Nalu to efekt pracy wielu programistów, wszystko po to, aby zademonstrować możliwości silnika CineFX 3.0
Microsoft DirectX 9.0 wprowadził nowe standardy w technologii cieniowania 'vertexów' i 'pixeli' - wersje 2.0 i wersje 3.0. Sprzęt zgodny z Shader Model 2.0 dostępny jest od ponad roku, w tym czasie zarówno karty i jak oprogramowanie doznało gwałtownego wzrostu. Shader Model 2.0 zawierał technologie użyteczne dla zaawansowanego oświetlenia i technik animacji, lecz był ograniczony długością i złożonością programów cieniujących, co nie pozwalało na wierne oddanie wszystkich efektów.
Gdy programiści (twórcy gier) zaczęli naciskać na ograniczenia właściwe dla jednostek Pixel Shader 2.0 i Vertex Shader 2.0, rozpoczęła się adopcja nowego, bardziej zaawansowanego Modelu Cieniowania 3.0. Oto najważniejsze różnice pomiędzy modelami 2.0 i 3.0:
| Pixel Shader | Shader 2.0 | Shader 3.0 | opis |
| Długość Shaderów | 96 | 65535+ | pozwala na złożone cieniowanie i oświetlenie |
| Dynamiczne rozgałęzienia | nie | TAK | oszczędza wydajność przez omijanie złożonego cieniowania na nieistotnych pixelach |
| Shader anti-aliasing | nie obsługiwane | wbudowane pochodne instrukcje | Deweloperzy mogą obliczyć pochodne każdej funkcji, pozwalającej im modyfikować częstotliwość cieniowania lub over-sampling w celu eliminowania artefaktów |
| rejestry Back-face | nie | TAK | pozwala na dwustronne oświetlenie w jednym przejściu |
| interpolowany format koloru | 8-bitowy stałoprzecin. | 32-bitowy zmiennoprzecin. | wyższy zakres i precyzja koloru pozwala na bardzo dynamiczną skalę cieniowania i oświetlenia |
| Multiple render targets | opcjonalnie | 4 wymagane | pozwala wyższym algorytmom oświetlenia zaoszczędzić filtrowania i pracy vertex'ów - innymi słowy więcej świateł mniejszym kosztem |
| mgła i rozbłyski | 8-bitowe | do wyboru fp16-fp32 programy shader | Shader Model 3.0 daje deweloperom pełną i precyzyjną kontrolę nad obliczeniami rozbłysków i mgieł - przedtem funkcja stała |
| Licznik koordynat tekstur | 8 | 10 | więcej danych na-pixel pozwala na bardziej realistyczny rendering, w szczgólności skóry |
| Vertex shader | Shader 2.0 | Shader 3.0 | Description |
| Długość Shaderów | 256 instrukcji | 65535 instrukcji | więcej instrukcji pozwala na bardziej szczegółowe postacie, oświetlenie i animacje |
| Dynamiczne rozgałęzienia | nie | TAK | oszczędza wydajność przez omijanie złożonego cieniowania na nieistotnych wektorach |
| Tekstury Vertex | nie | do 4 tekstur | pozwala na 'mapowanie przemieszczeń' |
| obsługa 'Instancing' | nie | wymagane | umożliwia rysowanie wielu urozmaiconych obiektów tylko przy wykorzystaniu pojedynczego polecenia. |
Szczegółowe informacje na temat Shader Model 3.0 zamieściła na swojej stronie firma Microsoft.
Trzeciej generacji silnik Cine FX, w skład którego wchodzą Vertex Shader 3.0 i Pixel Shader 3.0, daje przede wszystkim pełną zgodność z standardem cieniowania Microsoft zawartym w najnowszym DirectX 9.0c. To duża technologiczna przewaga na konkurencyjnym R420 firmy ATi, który pozostał na poziomie zgodności ze specyfikacją Cieniowania 2.0.
Jak czytamy w dokumentacji nVidii, CineFX 3.0 daje bardzo dużą swobodę programistom i twórcom programów cieniujących, likwidując narzucony do tej pory przez sprzęt, limit w długości programów vertexowych i pixelowych.
- Nieskończona długość programów cieniujących
- Dynamiczna kontrola przebiegu
- Displacement mapping
- Rozdzielanie strumieni vertexów
- technologia Multiple Render Target (MRT)
Z naszego punktu widzenia, 'zwykłych' użytkowników tych kart, których interesuje wyłącznie ostateczny efekt, czyli ładne efekty 3D i dobra wydajność, wszystkie te informacje o nieskończonej długości i wyższej precyzji programów cieniujących, dynamicznej kontroli przepływu, pętlach, rozgałęzieniach, etc etc, mogą być jeśli nie niezrozumiałe, to nieco przynudnawe i niepotrzebne. Zatem mówiąc już językiem jak najbardziej prostym: CineFX 3.0 oferuje wszystko co ma pomóc programistom w sposób szybki i wygodny pisać gry, które na ekranie naszych monitorów (przy wykorzystaniu odpowiednich kart rzecz jasna) będą wyglądać jak to wspaniałe demko z syrenką. Więcej technicznych informacji na temat CineFX 3.0 znajdziecie w dokumencie Technical Brief: CineFX 3.0.
Intellisample 3.0
Mianem technologii Intellisample nVidia określa 5 funkcji w swoim procesorze:
- zaawansowane 16-krotne filtrowanie anizotropowe,
- wygładzanie krawędzi metodą "obracanej siatki subpikseli"
- zaawansowane algortymy bezstratej kompresji koloru, tekstur, i danych bufora Z,
- szybkie czyszczenie bufora Z,
- technologia HCT: High-resolution Compression Technology - podnosząca wydajność w wysokich rozdzileczościach poprzez zaawansowane techniki kompresji,
suwak regulacji filtru anizotropowego: max 16X
- ... i suwak regulacji wygładzania obrazu: max 8XS
Największe zmiany dotyczą technologii wygładzania krawędzi FSAA. Nadal jest realizowane metodą multipróbkowania, jednak w nowej serii GeForce 6 nVidia zaadaptowała nowe algorytmy próbkowania nazwane "obracaną siatką". W poprzedniej serii GeForce FX wygładzanie piksela opierało się czterech próbkach (subpikselach) w siatce dwa-na-dwa. Poprzez dodatkowy obrót siatki czterech subpikseli, antyaliasing zyskał precyzję cztery-na-cztery. Umożliwiło to lepsze wygładzanie piksela w pionie i w poziomie.
dwa-na-dwa w GeForce FX (po lewej) i nowe cztery-na-cztery w GeForce 6
UltraShadow II
Funkcja ta pojawiła się już w silniku CineFX 2.0, a wersja II rzekomo jest 4X wydajniejsza od swojej poprzedniczki. Pozostaje wierzyć specyfikacji nVidii na słowo, bo raczej trudno będzie nam sprawdzić, ile jest w tym zapewnieniu prawdy, a ile 'marketingowego' sprytu. Siłą rzeczy każda technika/algorytmy będą działać szybciej na wydajniejszym GPU... ale nie szukajmy dziury w całym.
Ultrashadow pozwala ustawić głębie Z dla obliczeń związanych z wyświetlaniem cieni. Poza tym obszarem obliczenia dla cieni nie będą wykonywane, co pozwala zaoszczędzić czas i zwiększyć wydajność w scenach, w których wszystkie cienie liczone są w czasie rzeczywistym.
Zadaptowanie takiej funkcji bez wyraźnego powodu oczywiście nie miałoby sensu, jednak już wkrótce pojawi się Doom III, który rzekomo ma wykazać zalety tej technologii. Ilość obliczeń cieni jak pojawia się w tej grze ma sprawić, że karty dysponujące tą technologią zyskają dużo na wydajności
scena z Doom III
- kolorowe linie wykreślają efekt obliczeń cieni i przejść świateł:
bez techniki UltraShadow
i znacznie mniej obliczeń przy użyciu UltraShadow
Panele sterowania sterowników ForceWare 60.xx
W zunifikowanych zakładkach sterowników ForceWare 60, nie natrafiliśmy na żadne znaczące zmiany, charakterystyczne wyłącznie dla serii GeForce 6. Wszystkie dostępne w nich funkcje znamy już dobrze z poprzedniej serii FX.
W "Globalnych ustawieniach sterownika" do dyspozycji mamy m.in. suwaki poziomu 'wygładzania obrazu' (2x, 2xQ, 4x, 8xS), 'filtru anizotropowego' 2x, 4x, 8x, 16x), oraz synchronizacji V-Sync.
Oczywiście jak zawsze w sterownikach ForceWare jest też nView, potężne narzędzie nVidii umożliwijące obsługę trybu wielomonitorowego i zarządzanie wieloma pulpitami.
Platforma testowa
- procesor IntelPentium 4 3.2 GHz HT/FSB 800 MHz (Northwood)
- płyta główna Gigabyte 8IPE 1000Pro2 (intel 865PE)
- 512 MB RAM (2x256) DDR400 MHz / DualChannel
- dysk twardy Seagate Barracuda 80 GB Serial ATA
- Zasilacz Chieftec 360W
- Windows XP Pro PL SP1
testowane karty - Sparkle GeForce 6800 GT 128 MB
- PNY GeForce 6800 GT 256 MB
sterowniki nVidia 61.72
- Radeon 9800 Pro Gigabyte Maya II GV-R98P256D 256 MB
- Radeon X800 Pro Gigabyte GV-R80P256D 256 MB
- Radeon X800 XT Gigabyte GV-R80X256V 256 MB
sterowniki ATi Catalyst 4.6
Testy wydajności : 3D Mark 2003
Taktowany zegarem 350 MHz GeForce 6800 GT radzi sobie zaskakująco dobrze przy Radeonie X800XT, którego GPU pracuje przecież z częstotliwością o 175 MHz wyższą. Jak do tej pory to chipy ATi uzyskiwały lepsze rezultaty przy niższym zegarze (np: 9800 vs FX 5900). Role się odwróciły i wszystko wskazuje, że to nowy GPU nVidii dysponuje teraz znacznie większą mocą. Możemy nawet spekulować, że NV40 pracujący z częstotliwością taką samą jak X800XT (czyli 525MHz) mogłby być do 50% wydajniejszy od chipa ATi.
Ciekawe czy FutureMark przygotuje jakiegoś patcha do 3D Marka 2003, umożliwiającego renderowanie przy użyciu modelu cieniowania 3.0 i tym samym testowanie wydajności Vertex i Pixel Shader 3.0.
Spójrzmy jeszcze na poszczególne testy, bo dowiemy się z nich gdzie tak naprawdę 6800 GT traci w stosunku do Radeona X800XT. Okazuje się, że we wszystkich trzech testach wydajność kart jest bardzo zbliżona - odpowiednio 6800 GT i X800XT oraz 6800 i X800 Pro. Dopiero w ostatnim teście "Mother Nature" karty nVidii tracą w stosunku do swoich konkurentów ~20% i ~35%
Testy wydajności : Vertex Shader i Pixel Shader
NV40 faktycznie może się pochwalić imponującą wydajnością jednostki cieniowania pikseli. Pomimo szybkości wypełniania niższej aż o 2800 Megapikseli/s ! (8400 MP/s w X800XT i zaledwie 5600 MP/s w 6800 GT) w testach PS 2.0 procesor nVidii wyprzedził układ ATi o 15-20%. Niewykluczone zatem, że superskalarna architektura nVidii nie jest jedynie pustem zapisem w specyfikacji i niesie za sobą realne korzyści. Oby tylko nie okazała się to jakaś kolejna, 'drobna' optymalizacja w sterownikach nVidii.
Oba konkurujące ze sobą procesory - nVidii NV40 i ATi R420 - mają teraz po 6 jednostek Vertex Shader. Ich wydajność geometryczna, czyli ilość instrukcji na sekundę, w dużej mierze zależy od częstotliwości taktowania GPU, tak więc pracujący z częstotliwością 350 MHz 6800 GT wypada nieco słabiej od taktowanego zegarem 525MHz Radeona X800XT i 475 MHz Radeona X800 Pro. Oczywiście trzeba pamiętać, że test ten ogranicza się jedynie do porównania wydajności na kodzie w modelu cieniowania 2.0.
Testy wydajności : 3D Mark 2003 + FSAA x4 i Aniso x16
I jeszcze raz ten sam zestaw testów, tym razem z włączonym 4-krotnym wygładzaniem FSAA i 16-krotnym filtrowaniem anizotropowy.
Ocena wydajności i porównanie jakości obrazu w trybie FSAA, wydaje się być przy nowych kartach nieco utrudnione. Dzięki 'sprytnej' technice Temporal Anti-Aliasing, firma ATi oferuje w trybie 4X efektywne wygładzanie na poziomie 8X. Oznacza to, że porównanie wyników wydajności przy ustawieniu FSAA4X, nie zawsze będzie szło w parze z jakością obrazu jaki będzie wyświetlany na ekranie. Trzeba uczciwie przyznać, firmie ATi udało się na tym polu zdobyć pewną przewagę, co może prowadzić do ostatecznego stwierdzenia, że seria X800 jest lepszą kartą w pełnoekranowym wygładzaniu krawędzi.
Wyniki z podziałem na poszczególne testy:
Testy wydajności : Aquamark 3
Rezultaty z testów Aqumark 3 są co nieco przeplatane, ale generalnie widać po nich, że karty X800XT i 6800GT (16-potokowce) oraz X800Pro i 6800 (12-potokowce), pod względem wydajności trzymają się bardzo blisko siebie. Oczywiście wszystkie testy przeprowadzamy jak zwykle na najwyższych ustawieniach, czyli VeryHigh.
Aquamark 3, a konkretnie jego silnik krass, również nie korzysta z pełnych możliwości silnika NV40, bowiem obsługuje model cieniowania zgodny z założeniami DirectX 9b, a więc maksymalnie 2.0.
Warto jednak po raz pierwszy w tym artykule wspomnieć o aspekcie ekonomicznym. Karta GeForce 6800, mimo że miejscami uzyskuje nieco słabsze wyniki niż Radeon X800 Pro, jest tańsza o około 30% (w chwili gdy to piszemy)
I ten sam test z włączonym FSAA X4 i filtrowaniem anizotropowym X16. Przy AA znaczną rolę odgrywa szybkość wypełniania, a więc dysponujące niższym zegarem i tym samym niższym współczynnkiem wypełniania GeForce 6800, osiągają skromniejszą liczbę FPS - średnio o 20%.
Testy wydajności : FARCRY
Na początek mała prezentacja jakości obrazu pomiędzy SM 3.0 i SM 2.0. Różnice są bardzo subtelne, jednak czasami można je wyłapać gołym okiem. SM 3.0 w większości przypadków daje bardziej realistyczne efekty cieniowania i oświetlenia, gdzieniegdzie poprawia także niedoskonałości w grafice.
Dodatkowym atutem renderingu przy użyciu Modelu Cieniowania w wersji 3.0 ma być także nieznaczny wzrost wydajności.
NV40, rendering przy użyciu Modelu Cieniowania 3.0
- i ta sama scena renderowana przy użyciu Modelu Cieniowania 2.0
Póki co nasze testy wydajności przeprowadzimy na oficjalnych sterownikach nVidii i oficjalnej wersji FarCry 1.1, czyli z obsługą SM 2.0. Patch 1.2, który wprowadzi obsługę SM 3.0 nie jest jeszcze odstępny oficjalnie. Zdarzało się, o czym być może większość z Was pamięta, że recenzenci otrzymywali najnowszego Geforce 6800 wraz ze specjalnymi sterownikami, w których nVidia poczyniła pewne optymalizację, a dzięki nim karty osiągały znacznie lepsze wyniki. Tak więc testowanie i wykazywanie wzrostu wydajności na czymś, co nie jest jeszcze "ogólnie dostępne", nie było by chyba dobrym pomysłem. Zresztą jak widać poniżej i bez patcha 1.2 karty nVidii radzą sobie doskonale.
Do naszych testów z premedytacją wybieramy najcięższą do wyrenderowania scenę z FARCRY (otwarta wyspa). Zasadniczo nie interesuje nas, czy karta będzie osiągać 5 czy 20 klatek więcej ponad wynik 70-80 FPS (czyli na większości map timedemo), ale jak poradzi sobie w miejscu, w którym poziom geometrii i ilość tekstur może maksymalnie zdusić płynny rendering.
Przy wygładzaniu FSAAx4 z włączonym na maksimum filtrowaniem anizotropowym X16, karty GeForce 6800 tylko odrobinę odstają od nowych Radeonów X800. Nowy patch 1.2 być może pozwoli nVidii wyrównać tą różnicę, albo nawet zdobyć przewagę. Mimo to, na wszystkich czterech kartach i tak można komfortowo pogiercować przy doskonałej jakości obrazu.
Procesor Video
Wraz z nową serią GeForce6, poważne zmiany nastąpiły również w kwestii dekodowania potoku Video. nVidia zintegrowała w NV40 dodatkowy programolwany procesor video, odpowiedzialny za akcelerację m.in. WMV9, MPEG-4, H.264 i DiVX. Zasadniczo są to teraz dwa chipy w jednym: GPU i video procesor.
Obróbka potoku video przez GPU sprowadza się do dwóch najważniejszych zadań: odtwarzania (dekodowanie) oraz nagrywania analogowego sygnału i konwertowania go do określonego cyfrowego formatu (kodowanie). Najpopularniejszym formatem jest w obecnej chwili MPEG-2, a zaraz za nim Windows Media Video9 (WMV9). Z tym pierwszym spotykamy się przede wszystkim podczas odtwarzania DVD. GeForce6 poprzez kompensację ruchu (MC) oraz odwrotną dyskretną transformatę kosinusową (iDCT) potrafi bardzo sprawnie przejąć dekodowanie MPEG-2, zdejmując z CPU ciężar odtwarzania video. Efektem jest płynny, wysokiej jakości obraz oraz zmniejszenie zużycia energii.
Innym dość istotnym aspektem serii GeForce 6 jest całkowita programowalność i możliwość przejęcia takich formatów jak WMV9 czy MPEG-4.
| 1) podstawowe cechy procesora Video i obsługa wyjścia TV | ||
| GeForce 6800 | Radeon X800 | |
| procesor video | oddzielny procesor video zintegrowany w GPU | Videoshader |
| dekodowanie MPEG | 1,2,4 | 1,2,4 |
| sprzętowe wspomaganie dek. MPEG-2 | MC, iDCT | MC, iDCT |
| sprzętowa akceleracja WMV9 | tak | tak |
| usuwanie efektu "kwadratów" po kompresji | tak | tak |
| usuwanie "szumów" z przechwytywanego obrazu | tak | tak |
| koder do obsługi wyjścia TV | zintegrowany w GPU | zintegrowany w GPU |
| HDTV | 1920x1080i | 1920x1080i |
| maksymalna rozdzielczość na TV | 1024x768 | 1024x768 |
| niezależna rozdzielczość i odświeżanie na TV | tak | tak |
| pulpit na monitorze + video pełnoekranowe na TV | tak | tak |
| video na całej powierzchni - usuwanie czarnej ramki | tak | tak |
| 2) Praca w trybie dwumonitorowym | ||
| GeForce 6800 | Radeon X800 | |
| RAMDAC | podwójny 400 MHz | podwójny 400 MHz |
| Maksymalna rozdzielczość | 2048 × 1536 @ 85Hz | 2048 × 1536 @ 85Hz |
| obsługa DVI | 165 MHz TMDS (DVI 1.0) | 165 MHz TMDS (DVI 1.0) |
| aplikacja zarządzająca trybem DualView | nView | ATi Hydravision |
| możliwość podpięcia dwóch monitorów CRT | tak | tak |
| możliwość podpięcia monitora CRT i LCD | tak | tak |
| możliwość podpięcia dwóch monitorów LCD | tak | tak |
| sprzętowe skalowanie obrazu do rozdzielczości LCD | tak | tak |
| niezależne rozdzielczości i odświeżanie na każdym z monitorów | tak | tak |
| rozciąganie pulpitu w poziomie | tak | tak |
| rozciąganie pulpitu w pionie | tak | tak |
| klonowanie obrazu na monitorach | tak | tak |
| pulpit na 1 ekranie, video pełnoekranowe na 2 | tak | tak |
| zamiana pulpitów 1 i 2 miejscami | tak | tak |
| rozciąganie okien aplikacji na dwa ekrany | tak | tak |
| definiowanie pojawiania się ramek dialogowych | tak | tak |
| obracanie obrazu o 90 i 180° | tak | tak |
| możliwość tworzenia wirtulanych puliptów | tak | tak |
Podsumowanie: kto strzela bramke?
bierzmy zatem w całość wszystkie nasze spostrzeżenia na temat nowej serii GeForce 6:
- znacznie wyższa wydajność dzięki 12- i 16-potokowej architekturze
- ... i siłą rzeczy znacznie lepsza wydajność w trybie FSAA i filtrowaniu anizotropowym
- nowoczesny silnik CineFX 3.0 zgodny z Modelem Cieniowania 3.0 (Vertex i Pixel Shader 3.0)
- ulepszone algortymy wygładzania krawędzi
- zaawansowany video procesor zintegrowany w GPU
- żadnych problemów z chłodzeniem i temperaturą procesora
To wystarczająco dużo zalet, aby zaufać nowym produtom nVidii. Co do jednego jesteśmy absolutnie pewni: przy cenie za jaką można dostać GeForce 6800, nie ma już sensu inwestować w karty FX 5900 i FX 5900 Ultra (wyłączając FX 5900 XT, która należy do wyższego segmentu średniego).
Jeśli chodzi o wybór pomiędzy wersją 12- i 16-potokową, gracze-fascynaci którzy zdecydują się na zakup mocniejszej karty, otrzymają 20-40% wzrost wydajności - można się nim cieszyć przede wszystkim w trybie wygładzania FSAA w wysokich rozdzileczościach. Wzrost wydajności jest adekwatny do różnicy w cenie tych kart - około 30% - a więc jeśli lekką ręką możemy wydać 2 tysiaki na kartę graficzną, to z pewnością nie będzie to pusty wydatek.
W porównaniu do konkurenta, seria GeForce 6800 wypada średnio o 5-20% słabiej, ale elementem kluczowym w wyciąganiu ostatecznych wniosków jest cena kart: Radeon X800 Pro jest aż o 35%droższy od GeForce 6800 (np: Sapphire X800 Pro vs Leadtek 6800)
... natomiast za 6800 GT zapłacimy o około 15-20% mniej niż za Radeona X800 XT. To oczywiście wnioski wyciągnięte na dzień przygotowywania artykułu (20 lipiec), ale uświadamiają jak ważna jest cena produktów podczas porównywania ich osiągów.
Przewagę nad produktami ATi z serii X800 - której nVidii nie można odmówić - GeForce 6 zyskuje przede wszystkim dzięki nowoczesnemu silnikowi graficznemu, w pełni zgodnemu z DirectX 9c i SM 3.0. Jednak o tym będziemy mogli powiedzieć znacznie więcej po pojednyku nowych chipów w grach obsługujących zaawansowane technologie: Shader Model 3.0 (Doom III, HalfLife2, FarCry 1.2, Stalker...) czy UltraShadow.