Nowa seria nVidii - GeForce 6

Po bardzo nerwowym dla nVidii roku 2003 i problemowym chipie NV30, firma ta - pretendująca do miana lidera w branży układów graficznych - może chyba nareszcie odetchnąć z ulgą. Jej najnowszy chip NV40 wyswobodził się ze wszystkich niedoskonałości poprzednika i jak na razie emanuje czystym blaskiem.

Wojciech Kiełt

20 lipca 2004, 22:00

Nvidia pod bramką przeciwnika ...

chip NV40 na karcie GeForce 6800 GT

W 2003 roku nVidia 'hucznie' świętowała wprowadzenie swojego nowego chipa o nazwie kodowej NV30, określając to wydarzenie jako "świt w grafice komputerowej". No niestety, ten świt okazał się dla nVidii bardzo pochmurny. Jeszcze przed pojawieniem się w sklepach kart graficznych GeForce 5800 okazało się, że nVidia ma 'pewne' problemy z nowym GPU. Rozpoczęła się nagonka prasowa, a największym echem odbiła się wysoka temperatura pracy NV30, w efekcie której chip trzeba było chłodzić czym, co - jak zapewne większość z Was pamięta - nie bez przesady nazwano suszarką.

nVidia przyznała wówczas, że GeForce FX był bardzo trudnym projektem, kombinacją wielu technik Nvidii i 3dfx. Wynikiem tej współpracy był produkt najbardziej urozmaicony pod względem możliwości, lecz przez jego skomplikowaną architekturę, przy użyciu ówczesnych technik produkcji nie było łatwo wyprodukować chip pracujący z wysokimi częstotliwościami.

Mało kto kwapił się do zakupu GeForce 5800 i GeForce 5800 Ultra. Z procesora NV30 wyewoluowały dwie nowe architektury NV31 i NV34, niestety gubiąc po drodze niektóre z cech, o których nVidia hucznie mówiła ogłaszając nadejście 'świtu'.

Wspominamy o tym nie bez powodu, bo właśnie na tym potknięciu skorzystał największy konkurent nVidii, firma ATi, przeciągając na swoją stronę wielu, wielu graczy, oferując sprawdzoną i bardzo wydajną architekturę R300. nVidia wyraźnie straciła przewagę w wyścigu technologicznym. Swojego czasu bardzo udane i lubiane przez graczy karty z serii GeForce4 Ti-4200/4600, byliśmy zmuszeni upgrade'ować na Radeony 9700 i Radeony 9800 (wyobraźmy sobie jak potoczyły by się losy nVidii, gdyby do wydajności jaką oferowały Ti-4600 dołożyć jedynie obsługę DirectX 9). Sam będąc niegdyś 'wielbicielem' produktów z pod znaku 'nVidia', od ponad roku w swoim komputerze nie miałem karty innej jak ATi Radeon.

	nVidia NV30	nVidia NV35/NV38	ATi R300	ATi R350/R360
modele kart	5800 5800 Ultra	5900 5900 Ultra 5950 Ultra	9700/Pro	9800/Pro 9800ProII 9800 XT
ilość tranzystorów	125 mln	130 mln	105 mln	105 mln
technologia wykonania	130nm	130nm	150nm	150nm
Silnik graficzny	CineFX 2.0 Pixel Shader 2.0 Vertex Shader 2.0		Smartshader 2.1 Pixel 2.0 Vertex 2.0
procesory vertexów	macierz	macierz	4	4
liczba potoków	4x2	4x2	8x1	8x1
szyna do pamięci	128-bitowa DDR2	256-bitowa DDR	256-bitowa DDR	256-bitowa DDR/DDR2
technologie	Lightspeed III Intellisample	Lightspeed III Intellisample HTC UltraShadow	SmoothVision 2.0/2.1 Hyper Z III/III+

	ATi R420	nVidia NV40
modele kart	X800 Pro X800 XT	6800 6800 GT 6800 Ultra
ilość tranzystorów	160 mln	222 mln
technologia wykonania	130nm	130nm
Silnik graficzny	CineFX 3.0 Pixel 3.0 Vertex 3.0
procesory vertexów	6	6
liczba potoków	16x1	16x1
szyna do pamięci	256-bitowa DDR3	256-bitowa DDR3
technologie	NVIDIA HPDR LMA III Intellisample 3.0 UltraShadow II

Nic więc dziwnego, że już kilka miesięcy po premierze chipów z serii NV3x, nVidia zarzuciła prasę plotkami o swoim nowym projekcie pod kodowym oznaczeniem NV40. Jednocześnie cały czas ratując sprzedaż swoich chipów ciągłymi poprawkami: 5800 na 5900, 5900 na 5950, 5600 na 5700, czy najbardziej udane koło ratunkowe: FX 5900 XT.

W tym czasie pojawiało się niezywkle dużo spekulacji wokół najnowszych procesorów graficznych nVidii. Większość z nich była tylko czystymi plotkami, opartymi wyłącznie na domysłach - do tego stopnia, że stały się obiektem żartów i fałszywych informacji (w szczególności dotyczyły ilości pobieranego prądu, wydzielanego ciepła i sposobu chłodzenia). Powstrzymywaliśmy się od zamieszczania jakichkolwiek nowinek, do czasu ogłoszenia oficjalnej specyfikacji. Kurtyna opadła 14 kwietnia 2004 roku. nVidia wypuściła do sieci wszystkie ważne informacje techniczne na temat swojego nowego chipa i opartych na nim najnowszych kart graficznych: GeForce 6800 i 6800 Ultra.

Po zapoznaniu się ze specyfikacją nie było już wątpliwości, karty GeForce 6800 będą nowymi "kilerami" wydajności. Przy 16 potokach renderujących i częstotliwości taktowania GPU ~400MHz (najszybsza wersja ULTRA) otrzymamy prędkość wypełniania na poziomie 6400 Megatexeli/sekundę, a to oznacza, że GeForce 6800 teoretycznie może być o 70% wydajniejszy od GeForce FX 5950 Ultra.

z nowym VPU nVidii zobaczmy trzy karty z serii 6800

	GeForce FX 5950	GeForce 6800	GeForce 6800 GT	GeForce 6800 Ultra
nazwa kodowa GPU	NV38	NV 40	NV 40	NV 40
technologia wykonania	130nm	130nm
Silnik graficzny	CineFX 2.0 Pixel Shader 2.0 Vertex Shader 2.0	CineFX 3.0 Pixel Shader 3.0 Vertex Shader 3.0
procesory vertexów	macierz	5	6	6
liczba potoków	8	12	16	16
częstotliwość taktowania	475 Mhz	325 Mhz	350 Mhz	400 MHz
wydajność wypełniania	3800 MP/s	3900 MP/s	5600 MP/s	6400 MP/s
pamięci	950 MHz	700 MHz	1000 MHz	1100 MHz
przepustowość	~30 GB/s	~22 GB/s	~31 GB/s	~34 GB/s
szyna do pamięci	256-bitowa DDR	256-bitowa DDR	256-bitowa DDR3	256-bitowa DDR3
technologie	LMA III Intellisample HTC UltraShadow	NVIDIA HPDR LMA III Intellisample 3.0 UltraShadow II
RAMDAC	2 x 400 MHz	2 x 400 MHz

To, że producenci VPU pójdą w kierunku pomnożenia potoków renderujących, było do przewidzenia. To jedyny sposób aby zwiększyć dziś wydajność karty. Zrobiła tak również firma ATi w swoim X800, a dzięki wyższym zegarom, jej współczynnik wydajności jest nawet o 2000 MP/s większy niż GeForce 6800 Ultra. To dużo. Bardzo dużo.

Jednak nVidia dysponuje odpowiednim orężem do walki z nowymi, bardzo wydajnymi chipami ATi (ATi oficjalnie ogłosiła swój procesor R420 niecały miesiąc po nVidii). Nie poprzestała wyłącznie na podniesieniu wydajności swojego nowego GPU. NV40 zyskał także nowy silnik graficzny z jednostkami Pixel Shader i Vertex Shader w wersji 3.0. Jak już wspominaliśmy podczas naszej recenzji Radeona X800, nowy model cieniowania w wersji 3.0 - ShaderModel 3.0 - dający kartom GeForce 6800 pełną obsługę DirectX 9.0c, ma wnieść duży potencjał w nowoczesne gry 3D. Nowy patch 1.2 do gry FarCry pojawi się już lada chwila oficjalnie, a zapowiadany na początku sierpnia DooM III już natywnie ma wykorzystać zalety PS 3.0.

Szczegółowa specyfikacja NV40

chip NV40 na karcie GeForce 6800

220 milionów tranzystorów, technologia wykonania 0.13 micron "low-k"
16-potokowa, superskalarna architektura z 6 jednostkami vertex,
silnik graficzny CineFX 3.0:
* 128-bitowa zmiennoprzecinkowa prezycja kolorów (rendering w 32-bitowej, 64-bitowej i 128-bitowej palecie koloru)
programowalny Vertex Shader 3.0
* Displacement Mapping i Tone Mapping w czasie rzeczywistym
* nieskończona długość programów vertexowych
programowalny Pixel Shader 3.0
* 16 i 32 bitowa zmiennoprzecinkowa precyzja
* 8 operacji PixelShader na pikselu,
* do 16 textur w jednym prześciu,
* nieskończona długość programów pixelowych
* 128 operacji PixelShader w jednym cyklu zegara,
* obsługa tekstur w formacie sRGB
* obsługa kompresji tekstur DirectX i S3TC
pełna obsługa DirectX 9.0c (rozszerzona obsługa Pixel Shaderów)
NVIDIA HPDR (High-Precision Dynamic-Range)
technologia obsługująca zmiennoprzecinkowe filtrowanie, teksturowanie, wtapianie i antyaliasing,
Intellisample 3.0
- 2, 4, 8 i 16-krotne pełnoekranowe wygładzanie krawędzi (FSAA) metodą 'obracanej siatki'
- 2, 4, 8, i 16-krotne filtrowanie anizotropowe
- ulepszona wydajność kompresji HCT (High-resolution compression),
- nowe bezstratne algorytmy kompresji koloru, tekstur i bufora Z, oraz szybkiego czyszczenia bufora Z,
UltraShadow II
- do 4 razy wydajniejszy od UltraShadow (w NV35) w grach wykorzystujących cienie w czasie rzeczywistym,
256-bitowy interfejs do pamięci GDDR3
- krzyżowy kontroler pamięci (4 x 32bit)
- Lightspeed Memory Architecture III
pamięci taktowane częstotliwością 1100 MHz, co łącznie daje maks. przepustowość do 34 GB/s
obsługa PCI Express x16 lub AGP 8x
zintegrowany podwójny (10-bitowy) RAMDAC 400 MHz
umożliwiający wyświetlanie obrazu w rozdzielczości do 2048x1536 przy odwieżaniu 85Hz;
nowy zintegrowany videoprocesor,
* do sprzętowego dekodowania MPEG,
* sprzętowa akceleracja WMV9,
* skalowanie i filtrowanie sygnału video - NTSC/PAL do rozdzielczości 1024x768,
* dekoder DVD/HDTV > MPEG2 do rozdzielczości 1920x1080i;
- * sprzętowa komepnsacja ruchu (Motion Compensation), iDCT, DCT i konwersja koloru
* zintegrowany 165 MHzowy TMDS transmitter (DVI 1.0 / HDMI i HDCP)
NVIDIA Digital Vibrance Control 3.0 (DVC)

W swojej nowej serii GeForce 6 nVidia szczyci się przede wszystkim superskalarną architekturą. W dokumentacji czytamy, że nowa architektura może podwoić ilość wykonywanych operacji w jednym cyklu zegara. A cóż to znaczy? Otóż w tradycjnej, nieskalarnej architekturze, w każdym potoku renderującym była tylko jedna jednostka cieniująca (Shader), która w jednym cyklu zegara mogła wykonać maksymalnie 4 operacje na pixelu.

W NV40 każdy z potoków pikseli ma już dwie jednostki cieniujące (Shader Unit1 i Shader Unit2) i jedną zmiennoprzecinkową jednostkę tekstur (Texture). Dzięki temu na GeForce6 w jednym cyklu zegara liczba operacji na pixelu mogła wzrosnąć dwukrotnie, czyli do ośmiu.

Różnica pomiędzy tymi architekturami jest znacząca, jednak gdybyśmy chcieli dokładniej zaprezentować Wam gdzie następuje realny zysk, musielibyśmy wyjaśnić precyzyjniej różnice pomiędzy "instrukcją" (funkcją do zrealizowania) a "operacją na pikselu" (obliczenia zgodnie z zadaną instrukcją).

Sumując, superskalarna architektura NV40 umożliwia wykonanie do czterech instrukcji i do 8 operacji na pikselu, podczas gdy stara architektura nVidii umożliwiała wykonanie jedynie dwóch instrukcji i czterech operacji. Brzmi to przekonywująco, aczkolwiek to nadal tylko techniczne założenia, które czasami mają swoje drobne "kruczki', jak np: fakt, że tylko pierwsza jednostka cieniująca może wykonywać dwa typy instrukcji (operacje arytmetyczne i operacje odczytu tekstur), druga już tylko jeden typ instrukcji (operacje arytmetyczne).

Zostawmy jednak cykle, instrukcje, operacje, itp, bo choć odgrywają one ważną rolę w architekturze GPU, to i tak 'jednostką' która najbardziej ze wszystkich dociera do świadomości wszystkich potencjalnych nabywców kart jest 'FPS' ;) . Przyglądnijmy się bliżej kartom GeForce 6800.

Karty GeForce 6800

karta GeForce 6800 GT bez chłodzenia

W zależności od produktu finalnego, na kartę lutowany jest chip z zablokowanymi 4 potokami (GeForce 6800) lub wersja 'pełnowartościowa' z 16 potokami (GT i Ultra). Pomiędzy sobą karty różnią się jeszcze drobnymi szczegółami technicznymi, jak np: mocniejszymi konwerterami napięcia - na zdjęciu powyżej zakryte dodatkowym radiatorem. Może to w pewien sposób ochłodzić zapędy do prób odblokowania wszystkich 16 potoków w GeForce 6800, gdyż prawdopodobie sama płytka tej karty nie jest przygotowana do tego, aby dostarczyć procesorowi z 16 potokami tak dużego prądu (szacuje się że jest od 20 do 25% więcej energii).

... i karta GeForce 6800

Wiele opinii i domysłów wymieniono na temat wymagań energetycznych nowych kart 6800. W dokumentach prasowych nVidiia dobitnie podkreśla, że do zasilania kart 6800 i 6800 GT wystarczy PSU o mocy 300W. Dowiadujemy się z nich również, że GeForce 6800 pod pełnym obciążeniem może pobierać od 80 do 110W energii (odpowiednio 6800, 6800GT i 6800 Ultra). To oczywiste, że sama karta nie potrzebuje zasilacza o większej mocy, a nVidia za wszelką cenę chce obalić mit, jakoby to karta graficzna pobierała najwięcej energii w całym komputerze. Trudno jednak wyobrazić sobie nowoczesny komputer z kartą 6800GT (~90W energii), bez mocnego procesora np: 3.0 GHz+ (od 80 do 90W energii), 1 GB RAMu (~20W), napędów CDRW-DVD (~20), dwóch dysków twardych (~60W), zaawansowanego chłodzenia obudowy i kilku urządzeń podpiętych pod porty USB. To już niestety wymaga solidnego, mocnego zasilacza, przynajmniej o mocy 360W. (dla przykładu, Chieftec HPC-360-202 pod łącznym obciążeniem napięć 3.3V + 5V + 12V, może stabilnie pracować przy maksymalnym poborze energii 325W. Natomiast 300Watowy Chieftec GPS-300AB-100L już tylko 275W)

Obie karty wyposażone są w jedno gniazdko zasilania zewnętrznego molex z zasilacza ATX.

Wersja ULTRA ma ich aż dwa!

Do chłodzenia procesora wystarczy już niewielki aluminiowy radiator i pracujący w miarę cicho wiatraczek. Wiatrak ma dynamiczną regulację prędkości, co oznacza, że w szczególnym przypadku może jednak o sobie dać znać. Można się o tym przekonać podczas startu komputera, gdy wiatrak rozpoczyna pracę z maksymalną prędkością obrotów i cichnie dopiero po kilku sekundach.

Referecyjny system chłodzenia kart 6800 GT przewiduje również aktywne chłodzenie kości pamięci (1000 MHz). W modelu 6800, gdzie pamięci pracują z dużo niższą częstotliwością (700 MHz), chłodzenie ich nie jest już wymagane przez specyfikację.

chłodzenie karty GeForce 6800 GT

Podobnie jak poprzednie układy, NV40 wyposażony jest w diodę termiczną zapobiegającą jego przegrzaniu. Gdy temperatura procesora przekroczy wartość krytyczną - dla 6800 jest to 135°C, dla 6800 GT już tylko 120°C - na ekranie monitora pojawi się stosowny komunikat, a częstotliwość taktowania GPU zostanie obniżona o połowę do czasu, aż jego temperatura spadnie. Podczas naszych testów monitor temperatury nVidii wskazywał od 60 (w trybie 2D) do 80°C (podczas obciążenia 3D).

Sparkle GeForce 6800

Wyposażona w układ NV40 (12 potokowy), taktowany częstotliwością 325 MHz, oraz 128MB pamięci DDR pracujących z częstotliwością 700 MHz. Kości pamięci Hynix z czasem dostępu 2.8 ns.

Wyjścia: DVI 2.0, S-Video oraz klasyczne D-Sub. Z tyłu karty dodatkowe złącze zasilania molex 12V.

PNY GeForce 6800 GT

Wyposażona w układ NV40 (16 potokowy), taktowany częstotliwością 325 MHz, oraz 256MB pamięci GDDR3 pracujących z częstotliwością 1000 MHz. Kości pamięci SAMSUNG z czasem dostępu 2.0 ns.

Wyjścia: DVI 2.0, S-Video oraz klasyczne D-Sub. Z tyłu karty dodatkowe złącze zasilania molex 12V.

CineFX 3.0 i Shader Model 3.0

Piękna syrenka Nalu to efekt pracy wielu programistów, wszystko po to, aby zademonstrować możliwości silnika CineFX 3.0

Microsoft DirectX 9.0 wprowadził nowe standardy w technologii cieniowania 'vertexów' i 'pixeli' - wersje 2.0 i wersje 3.0. Sprzęt zgodny z Shader Model 2.0 dostępny jest od ponad roku, w tym czasie zarówno karty i jak oprogramowanie doznało gwałtownego wzrostu. Shader Model 2.0 zawierał technologie użyteczne dla zaawansowanego oświetlenia i technik animacji, lecz był ograniczony długością i złożonością programów cieniujących, co nie pozwalało na wierne oddanie wszystkich efektów.

Gdy programiści (twórcy gier) zaczęli naciskać na ograniczenia właściwe dla jednostek Pixel Shader 2.0 i Vertex Shader 2.0, rozpoczęła się adopcja nowego, bardziej zaawansowanego Modelu Cieniowania 3.0. Oto najważniejsze różnice pomiędzy modelami 2.0 i 3.0:

Pixel Shader	Shader 2.0	Shader 3.0	opis
Długość Shaderów	96	65535+	pozwala na złożone cieniowanie i oświetlenie
Dynamiczne rozgałęzienia	nie	TAK	oszczędza wydajność przez omijanie złożonego cieniowania na nieistotnych pixelach
Shader anti-aliasing	nie obsługiwane	wbudowane pochodne instrukcje	Deweloperzy mogą obliczyć pochodne każdej funkcji, pozwalającej im modyfikować częstotliwość cieniowania lub over-sampling w celu eliminowania artefaktów
rejestry Back-face	nie	TAK	pozwala na dwustronne oświetlenie w jednym przejściu
interpolowany format koloru	8-bitowy stałoprzecin.	32-bitowy zmiennoprzecin.	wyższy zakres i precyzja koloru pozwala na bardzo dynamiczną skalę cieniowania i oświetlenia
Multiple render targets	opcjonalnie	4 wymagane	pozwala wyższym algorytmom oświetlenia zaoszczędzić filtrowania i pracy vertex'ów - innymi słowy więcej świateł mniejszym kosztem
mgła i rozbłyski	8-bitowe	do wyboru fp16-fp32 programy shader	Shader Model 3.0 daje deweloperom pełną i precyzyjną kontrolę nad obliczeniami rozbłysków i mgieł - przedtem funkcja stała
Licznik koordynat tekstur	8	10	więcej danych na-pixel pozwala na bardziej realistyczny rendering, w szczgólności skóry

Vertex shader	Shader 2.0	Shader 3.0	Description
Długość Shaderów	256 instrukcji	65535 instrukcji	więcej instrukcji pozwala na bardziej szczegółowe postacie, oświetlenie i animacje
Dynamiczne rozgałęzienia	nie	TAK	oszczędza wydajność przez omijanie złożonego cieniowania na nieistotnych wektorach
Tekstury Vertex	nie	do 4 tekstur	pozwala na 'mapowanie przemieszczeń'
obsługa 'Instancing'	nie	wymagane	umożliwia rysowanie wielu urozmaiconych obiektów tylko przy wykorzystaniu pojedynczego polecenia.

Szczegółowe informacje na temat Shader Model 3.0 zamieściła na swojej stronie firma Microsoft.

Trzeciej generacji silnik Cine FX, w skład którego wchodzą Vertex Shader 3.0 i Pixel Shader 3.0, daje przede wszystkim pełną zgodność z standardem cieniowania Microsoft zawartym w najnowszym DirectX 9.0c. To duża technologiczna przewaga na konkurencyjnym R420 firmy ATi, który pozostał na poziomie zgodności ze specyfikacją Cieniowania 2.0.

Jak czytamy w dokumentacji nVidii, CineFX 3.0 daje bardzo dużą swobodę programistom i twórcom programów cieniujących, likwidując narzucony do tej pory przez sprzęt, limit w długości programów vertexowych i pixelowych.

Nieskończona długość programów cieniujących
Dynamiczna kontrola przebiegu
Displacement mapping
Rozdzielanie strumieni vertexów
technologia Multiple Render Target (MRT)

Z naszego punktu widzenia, 'zwykłych' użytkowników tych kart, których interesuje wyłącznie ostateczny efekt, czyli ładne efekty 3D i dobra wydajność, wszystkie te informacje o nieskończonej długości i wyższej precyzji programów cieniujących, dynamicznej kontroli przepływu, pętlach, rozgałęzieniach, etc etc, mogą być jeśli nie niezrozumiałe, to nieco przynudnawe i niepotrzebne. Zatem mówiąc już językiem jak najbardziej prostym: CineFX 3.0 oferuje wszystko co ma pomóc programistom w sposób szybki i wygodny pisać gry, które na ekranie naszych monitorów (przy wykorzystaniu odpowiednich kart rzecz jasna) będą wyglądać jak to wspaniałe demko z syrenką. Więcej technicznych informacji na temat CineFX 3.0 znajdziecie w dokumencie Technical Brief: CineFX 3.0.

Intellisample 3.0

Mianem technologii Intellisample nVidia określa 5 funkcji w swoim procesorze:

zaawansowane 16-krotne filtrowanie anizotropowe,
wygładzanie krawędzi metodą "obracanej siatki subpikseli"
zaawansowane algortymy bezstratej kompresji koloru, tekstur, i danych bufora Z,
szybkie czyszczenie bufora Z,
technologia HCT: High-resolution Compression Technology - podnosząca wydajność w wysokich rozdzileczościach poprzez zaawansowane techniki kompresji,

suwak regulacji filtru anizotropowego: max 16X

- ... i suwak regulacji wygładzania obrazu: max 8XS

Największe zmiany dotyczą technologii wygładzania krawędzi FSAA. Nadal jest realizowane metodą multipróbkowania, jednak w nowej serii GeForce 6 nVidia zaadaptowała nowe algorytmy próbkowania nazwane "obracaną siatką". W poprzedniej serii GeForce FX wygładzanie piksela opierało się czterech próbkach (subpikselach) w siatce dwa-na-dwa. Poprzez dodatkowy obrót siatki czterech subpikseli, antyaliasing zyskał precyzję cztery-na-cztery. Umożliwiło to lepsze wygładzanie piksela w pionie i w poziomie.

dwa-na-dwa w GeForce FX (po lewej) i nowe cztery-na-cztery w GeForce 6

UltraShadow II

Funkcja ta pojawiła się już w silniku CineFX 2.0, a wersja II rzekomo jest 4X wydajniejsza od swojej poprzedniczki. Pozostaje wierzyć specyfikacji nVidii na słowo, bo raczej trudno będzie nam sprawdzić, ile jest w tym zapewnieniu prawdy, a ile 'marketingowego' sprytu. Siłą rzeczy każda technika/algorytmy będą działać szybciej na wydajniejszym GPU... ale nie szukajmy dziury w całym.

Ultrashadow pozwala ustawić głębie Z dla obliczeń związanych z wyświetlaniem cieni. Poza tym obszarem obliczenia dla cieni nie będą wykonywane, co pozwala zaoszczędzić czas i zwiększyć wydajność w scenach, w których wszystkie cienie liczone są w czasie rzeczywistym.

Zadaptowanie takiej funkcji bez wyraźnego powodu oczywiście nie miałoby sensu, jednak już wkrótce pojawi się Doom III, który rzekomo ma wykazać zalety tej technologii. Ilość obliczeń cieni jak pojawia się w tej grze ma sprawić, że karty dysponujące tą technologią zyskają dużo na wydajności

scena z Doom III

- kolorowe linie wykreślają efekt obliczeń cieni i przejść świateł:

bez techniki UltraShadow

i znacznie mniej obliczeń przy użyciu UltraShadow

Panele sterowania sterowników ForceWare 60.xx

W zunifikowanych zakładkach sterowników ForceWare 60, nie natrafiliśmy na żadne znaczące zmiany, charakterystyczne wyłącznie dla serii GeForce 6. Wszystkie dostępne w nich funkcje znamy już dobrze z poprzedniej serii FX.

W "Globalnych ustawieniach sterownika" do dyspozycji mamy m.in. suwaki poziomu 'wygładzania obrazu' (2x, 2xQ, 4x, 8xS), 'filtru anizotropowego' 2x, 4x, 8x, 16x), oraz synchronizacji V-Sync.

Oczywiście jak zawsze w sterownikach ForceWare jest też nView, potężne narzędzie nVidii umożliwijące obsługę trybu wielomonitorowego i zarządzanie wieloma pulpitami.

Platforma testowa

procesor IntelPentium 4 3.2 GHz HT/FSB 800 MHz (Northwood)
płyta główna Gigabyte 8IPE 1000Pro2 (intel 865PE)
512 MB RAM (2x256) DDR400 MHz / DualChannel
dysk twardy Seagate Barracuda 80 GB Serial ATA
Zasilacz Chieftec 360W
Windows XP Pro PL SP1

testowane karty
Sparkle GeForce 6800 GT 128 MB
PNY GeForce 6800 GT 256 MB
sterowniki nVidia 61.72
Radeon 9800 Pro Gigabyte Maya II GV-R98P256D 256 MB
Radeon X800 Pro Gigabyte GV-R80P256D 256 MB
Radeon X800 XT Gigabyte GV-R80X256V 256 MB
sterowniki ATi Catalyst 4.6

Testy wydajności : 3D Mark 2003

Taktowany zegarem 350 MHz GeForce 6800 GT radzi sobie zaskakująco dobrze przy Radeonie X800XT, którego GPU pracuje przecież z częstotliwością o 175 MHz wyższą. Jak do tej pory to chipy ATi uzyskiwały lepsze rezultaty przy niższym zegarze (np: 9800 vs FX 5900). Role się odwróciły i wszystko wskazuje, że to nowy GPU nVidii dysponuje teraz znacznie większą mocą. Możemy nawet spekulować, że NV40 pracujący z częstotliwością taką samą jak X800XT (czyli 525MHz) mogłby być do 50% wydajniejszy od chipa ATi.

Ciekawe czy FutureMark przygotuje jakiegoś patcha do 3D Marka 2003, umożliwiającego renderowanie przy użyciu modelu cieniowania 3.0 i tym samym testowanie wydajności Vertex i Pixel Shader 3.0.

Spójrzmy jeszcze na poszczególne testy, bo dowiemy się z nich gdzie tak naprawdę 6800 GT traci w stosunku do Radeona X800XT. Okazuje się, że we wszystkich trzech testach wydajność kart jest bardzo zbliżona - odpowiednio 6800 GT i X800XT oraz 6800 i X800 Pro. Dopiero w ostatnim teście "Mother Nature" karty nVidii tracą w stosunku do swoich konkurentów ~20% i ~35%

Testy wydajności : Vertex Shader i Pixel Shader

NV40 faktycznie może się pochwalić imponującą wydajnością jednostki cieniowania pikseli. Pomimo szybkości wypełniania niższej aż o 2800 Megapikseli/s ! (8400 MP/s w X800XT i zaledwie 5600 MP/s w 6800 GT) w testach PS 2.0 procesor nVidii wyprzedził układ ATi o 15-20%. Niewykluczone zatem, że superskalarna architektura nVidii nie jest jedynie pustem zapisem w specyfikacji i niesie za sobą realne korzyści. Oby tylko nie okazała się to jakaś kolejna, 'drobna' optymalizacja w sterownikach nVidii.

Oba konkurujące ze sobą procesory - nVidii NV40 i ATi R420 - mają teraz po 6 jednostek Vertex Shader. Ich wydajność geometryczna, czyli ilość instrukcji na sekundę, w dużej mierze zależy od częstotliwości taktowania GPU, tak więc pracujący z częstotliwością 350 MHz 6800 GT wypada nieco słabiej od taktowanego zegarem 525MHz Radeona X800XT i 475 MHz Radeona X800 Pro. Oczywiście trzeba pamiętać, że test ten ogranicza się jedynie do porównania wydajności na kodzie w modelu cieniowania 2.0.

Testy wydajności : 3D Mark 2003 + FSAA x4 i Aniso x16

I jeszcze raz ten sam zestaw testów, tym razem z włączonym 4-krotnym wygładzaniem FSAA i 16-krotnym filtrowaniem anizotropowy.

Ocena wydajności i porównanie jakości obrazu w trybie FSAA, wydaje się być przy nowych kartach nieco utrudnione. Dzięki 'sprytnej' technice Temporal Anti-Aliasing, firma ATi oferuje w trybie 4X efektywne wygładzanie na poziomie 8X. Oznacza to, że porównanie wyników wydajności przy ustawieniu FSAA4X, nie zawsze będzie szło w parze z jakością obrazu jaki będzie wyświetlany na ekranie. Trzeba uczciwie przyznać, firmie ATi udało się na tym polu zdobyć pewną przewagę, co może prowadzić do ostatecznego stwierdzenia, że seria X800 jest lepszą kartą w pełnoekranowym wygładzaniu krawędzi.

Wyniki z podziałem na poszczególne testy:

Testy wydajności : Aquamark 3

Rezultaty z testów Aqumark 3 są co nieco przeplatane, ale generalnie widać po nich, że karty X800XT i 6800GT (16-potokowce) oraz X800Pro i 6800 (12-potokowce), pod względem wydajności trzymają się bardzo blisko siebie. Oczywiście wszystkie testy przeprowadzamy jak zwykle na najwyższych ustawieniach, czyli VeryHigh.

Aquamark 3, a konkretnie jego silnik krass, również nie korzysta z pełnych możliwości silnika NV40, bowiem obsługuje model cieniowania zgodny z założeniami DirectX 9b, a więc maksymalnie 2.0.

Warto jednak po raz pierwszy w tym artykule wspomnieć o aspekcie ekonomicznym. Karta GeForce 6800, mimo że miejscami uzyskuje nieco słabsze wyniki niż Radeon X800 Pro, jest tańsza o około 30% (w chwili gdy to piszemy)

I ten sam test z włączonym FSAA X4 i filtrowaniem anizotropowym X16. Przy AA znaczną rolę odgrywa szybkość wypełniania, a więc dysponujące niższym zegarem i tym samym niższym współczynnkiem wypełniania GeForce 6800, osiągają skromniejszą liczbę FPS - średnio o 20%.

Testy wydajności : FARCRY

Na początek mała prezentacja jakości obrazu pomiędzy SM 3.0 i SM 2.0. Różnice są bardzo subtelne, jednak czasami można je wyłapać gołym okiem. SM 3.0 w większości przypadków daje bardziej realistyczne efekty cieniowania i oświetlenia, gdzieniegdzie poprawia także niedoskonałości w grafice.

Dodatkowym atutem renderingu przy użyciu Modelu Cieniowania w wersji 3.0 ma być także nieznaczny wzrost wydajności.

NV40, rendering przy użyciu Modelu Cieniowania 3.0

- i ta sama scena renderowana przy użyciu Modelu Cieniowania 2.0

Póki co nasze testy wydajności przeprowadzimy na oficjalnych sterownikach nVidii i oficjalnej wersji FarCry 1.1, czyli z obsługą SM 2.0. Patch 1.2, który wprowadzi obsługę SM 3.0 nie jest jeszcze odstępny oficjalnie. Zdarzało się, o czym być może większość z Was pamięta, że recenzenci otrzymywali najnowszego Geforce 6800 wraz ze specjalnymi sterownikami, w których nVidia poczyniła pewne optymalizację, a dzięki nim karty osiągały znacznie lepsze wyniki. Tak więc testowanie i wykazywanie wzrostu wydajności na czymś, co nie jest jeszcze "ogólnie dostępne", nie było by chyba dobrym pomysłem. Zresztą jak widać poniżej i bez patcha 1.2 karty nVidii radzą sobie doskonale.

Do naszych testów z premedytacją wybieramy najcięższą do wyrenderowania scenę z FARCRY (otwarta wyspa). Zasadniczo nie interesuje nas, czy karta będzie osiągać 5 czy 20 klatek więcej ponad wynik 70-80 FPS (czyli na większości map timedemo), ale jak poradzi sobie w miejscu, w którym poziom geometrii i ilość tekstur może maksymalnie zdusić płynny rendering.

Przy wygładzaniu FSAAx4 z włączonym na maksimum filtrowaniem anizotropowym X16, karty GeForce 6800 tylko odrobinę odstają od nowych Radeonów X800. Nowy patch 1.2 być może pozwoli nVidii wyrównać tą różnicę, albo nawet zdobyć przewagę. Mimo to, na wszystkich czterech kartach i tak można komfortowo pogiercować przy doskonałej jakości obrazu.

Procesor Video

Wraz z nową serią GeForce6, poważne zmiany nastąpiły również w kwestii dekodowania potoku Video. nVidia zintegrowała w NV40 dodatkowy programolwany procesor video, odpowiedzialny za akcelerację m.in. WMV9, MPEG-4, H.264 i DiVX. Zasadniczo są to teraz dwa chipy w jednym: GPU i video procesor.

Obróbka potoku video przez GPU sprowadza się do dwóch najważniejszych zadań: odtwarzania (dekodowanie) oraz nagrywania analogowego sygnału i konwertowania go do określonego cyfrowego formatu (kodowanie). Najpopularniejszym formatem jest w obecnej chwili MPEG-2, a zaraz za nim Windows Media Video9 (WMV9). Z tym pierwszym spotykamy się przede wszystkim podczas odtwarzania DVD. GeForce6 poprzez kompensację ruchu (MC) oraz odwrotną dyskretną transformatę kosinusową (iDCT) potrafi bardzo sprawnie przejąć dekodowanie MPEG-2, zdejmując z CPU ciężar odtwarzania video. Efektem jest płynny, wysokiej jakości obraz oraz zmniejszenie zużycia energii.

Innym dość istotnym aspektem serii GeForce 6 jest całkowita programowalność i możliwość przejęcia takich formatów jak WMV9 czy MPEG-4.

1) podstawowe cechy procesora Video i obsługa wyjścia TV
	GeForce 6800	Radeon X800
procesor video	oddzielny procesor video zintegrowany w GPU	Videoshader
dekodowanie MPEG	1,2,4	1,2,4
sprzętowe wspomaganie dek. MPEG-2	MC, iDCT	MC, iDCT
sprzętowa akceleracja WMV9	tak	tak
usuwanie efektu "kwadratów" po kompresji	tak	tak
usuwanie "szumów" z przechwytywanego obrazu	tak	tak
koder do obsługi wyjścia TV	zintegrowany w GPU	zintegrowany w GPU
HDTV	1920x1080i	1920x1080i
maksymalna rozdzielczość na TV	1024x768	1024x768
niezależna rozdzielczość i odświeżanie na TV	tak	tak
pulpit na monitorze + video pełnoekranowe na TV	tak	tak
video na całej powierzchni - usuwanie czarnej ramki	tak	tak

2) Praca w trybie dwumonitorowym
	GeForce 6800	Radeon X800
RAMDAC	podwójny 400 MHz	podwójny 400 MHz
Maksymalna rozdzielczość	2048 × 1536 @ 85Hz	2048 × 1536 @ 85Hz
obsługa DVI	165 MHz TMDS (DVI 1.0)	165 MHz TMDS (DVI 1.0)
aplikacja zarządzająca trybem DualView	nView	ATi Hydravision
możliwość podpięcia dwóch monitorów CRT	tak	tak
możliwość podpięcia monitora CRT i LCD	tak	tak
możliwość podpięcia dwóch monitorów LCD	tak	tak
sprzętowe skalowanie obrazu do rozdzielczości LCD	tak	tak
niezależne rozdzielczości i odświeżanie na każdym z monitorów	tak	tak
rozciąganie pulpitu w poziomie	tak	tak
rozciąganie pulpitu w pionie	tak	tak
klonowanie obrazu na monitorach	tak	tak
pulpit na 1 ekranie, video pełnoekranowe na 2	tak	tak
zamiana pulpitów 1 i 2 miejscami	tak	tak
rozciąganie okien aplikacji na dwa ekrany	tak	tak
definiowanie pojawiania się ramek dialogowych	tak	tak
obracanie obrazu o 90 i 180°	tak	tak
możliwość tworzenia wirtulanych puliptów	tak	tak

Podsumowanie: kto strzela bramke?

bierzmy zatem w całość wszystkie nasze spostrzeżenia na temat nowej serii GeForce 6:

znacznie wyższa wydajność dzięki 12- i 16-potokowej architekturze
... i siłą rzeczy znacznie lepsza wydajność w trybie FSAA i filtrowaniu anizotropowym
nowoczesny silnik CineFX 3.0 zgodny z Modelem Cieniowania 3.0 (Vertex i Pixel Shader 3.0)
ulepszone algortymy wygładzania krawędzi
zaawansowany video procesor zintegrowany w GPU
żadnych problemów z chłodzeniem i temperaturą procesora

To wystarczająco dużo zalet, aby zaufać nowym produtom nVidii. Co do jednego jesteśmy absolutnie pewni: przy cenie za jaką można dostać GeForce 6800, nie ma już sensu inwestować w karty FX 5900 i FX 5900 Ultra (wyłączając FX 5900 XT, która należy do wyższego segmentu średniego).

Jeśli chodzi o wybór pomiędzy wersją 12- i 16-potokową, gracze-fascynaci którzy zdecydują się na zakup mocniejszej karty, otrzymają 20-40% wzrost wydajności - można się nim cieszyć przede wszystkim w trybie wygładzania FSAA w wysokich rozdzileczościach. Wzrost wydajności jest adekwatny do różnicy w cenie tych kart - około 30% - a więc jeśli lekką ręką możemy wydać 2 tysiaki na kartę graficzną, to z pewnością nie będzie to pusty wydatek.

W porównaniu do konkurenta, seria GeForce 6800 wypada średnio o 5-20% słabiej, ale elementem kluczowym w wyciąganiu ostatecznych wniosków jest cena kart: Radeon X800 Pro jest aż o 35%droższy od GeForce 6800 (np: Sapphire X800 Pro vs Leadtek 6800)

... natomiast za 6800 GT zapłacimy o około 15-20% mniej niż za Radeona X800 XT. To oczywiście wnioski wyciągnięte na dzień przygotowywania artykułu (20 lipiec), ale uświadamiają jak ważna jest cena produktów podczas porównywania ich osiągów.

Przewagę nad produktami ATi z serii X800 - której nVidii nie można odmówić - GeForce 6 zyskuje przede wszystkim dzięki nowoczesnemu silnikowi graficznemu, w pełni zgodnemu z DirectX 9c i SM 3.0. Jednak o tym będziemy mogli powiedzieć znacznie więcej po pojednyku nowych chipów w grach obsługujących zaawansowane technologie: Shader Model 3.0 (Doom III, HalfLife2, FarCry 1.2, Stalker...) czy UltraShadow.