Marcin Bienkowski | 2011-09-06

Procesory wielordzeniowe - co szykuje przyszłość?

kategoria: procesory

producenci: AMD, IBM, Intel, nVidia

 

Ominąć problem spójności pamięci cache

Oczywiście układ SCC jest obecnie procesorem w całości eksperymentalnym. Nie ma wyśrubowanej wydajności – rdzenie pracują z częstotliwością 533 MHz, routery z szybkością 800 MHz, a pamięć DDR3 z prędkością 800 MHz. Ze względu na prostą architekturę, wybrano też do projektu leciwe już rdzenie procesorów Pentium, gdyż właśnie nie o wydajność tu chodziło, ale sprawdzenie w praktyce możliwości współpracy wielu standardowych rdzeni procesorowych. W przyszłości będzie możliwe np. zastąpienie jąder Pentium jądrami Core i7. Obecny układ SCC ma 48 rdzeni, w tej architekturze możliwe jest jednak połączenie ze sobą 100 czy nawet 1000 rdzeni. Jak zatem konstruktorom Intela udało się rozwiązać problem spójności danych, możliwość projektowania procesorów wielordzeniowych o więcej niż kilkunastu jądrach?

Po prostu zrezygnowano z uzyskiwania spójności danych, wykorzystując model pamięci wirtualnej oraz model oparty na protokole komunikacyjnym MPI (Message Passing Interface, z ang. interfejs transmisji wiadomości/komunikatów), tak jak ma to miejsce w klastrach komputerowych. Trudno więc mówić o spójności danych, gdyż pamięć operacyjna klastra jest rozproszona między poszczególne komputery – dokładnie tak, jak fizycznie, w sprzęcie. Dlatego jeden z komputerów jest komputerem nadrzędnym (tzw. węzeł-serwer) i to on za pośrednictwem protokołu MPI, który służy do przesyłania komunikatów pomiędzy procesami programów równoległych działających na kilku komputerach, rozdziela zadania i dane między pozostałe komputery (węzły-klienty). Węzeł-serwer kontroluje cały klaster i udostępnia pliki klientom. Pełni on także funkcję konsoli dla całego klastra i to przez niego przechodzą wszystkie informacje "z zewnętrznego świata".

W klastrach wykorzystuje się również pamięć wspólną. Obraz pamięci operacyjnej jest w nim widziany przez każdy komputer jako całość, czyli mamy do czynienia z tzw. ciągłą przestrzenią adresową. Oczywiście ta ciągła przestrzeń adresowa ma się nijak do fizycznego rozmieszczenia pamięci RAM, dlatego w klastrach stosuje się oprogramowanie ukrywające fizyczne rozproszenie pamięci. W ten sposób powstaje środowisko określane jako wirtualna (Virtual Shared Memory) lub rozproszona pamięć wspólna DSM (Distributed Shared Memory). Pamięcią wirtualną w klastrach też zarządza węzeł-serwer.

Krzemowa struktura procesora Intel Single-chip Cloud Computer

Krzemowa struktura procesora Intel Single-chip Cloud Computer (SCC)

Jak widać, w klastrach komputerowych bardzo ważna jest szybkość wymiany danych, która wpływa na ogólną wydajność systemu. Komunikacja odbywa się za pomocą przełączników lub routerów. Z tego modelu z zastosowaniem routerów komunikacyjnych też skorzystano w procesorze SCC. Intel określił tą architekturę nazwą RIB (Router Interface Block). Przepływność sieci routerowej w układzie Rock Creek wynosi 32 GB/s. Routery w kości SCC są sterowane programowo, przez co udało się osiągnąć dużą elastyczność w przekazywaniu zadań obliczeniowych z kafelka do kafelka oraz w dostępie do wirtualnej pamięci RAM, co jest szczególnie ważne, gdy jednocześnie przetwarzane są różnorodne zadania.

Zmiany w architekturze

Architektura procesorów wielordzeniowych będzie się w najbliższej przyszłości bardzo zmieniać. Najprawdopodobniej w czasie 4-5 lat w naszych domowych komputerach powoli zaczną pojawiać się wielordzeniowe procesory wywodzące się z architektury kart graficznych. Są one bowiem nie tylko łatwiejsze do zaprojektowania, ale również tańsze w produkcji i w zasadzie gotowe do wdrożenia. Układ taki jak SCC Intela raczej nie pojawi się na rynku szybciej niż za 10 lat. Problemem może być tutaj wyprodukowanie na jednej krzemowej płytce względnie taniego procesora zawierającego kilkanaście rdzeni. Co gorsza, jeśli uda się taką kość bez problemu wyprodukować, to mimo wszystko będzie ona wyjątkowo duża, co może stwarzać problemy z jej poprawnym zasilaniem i chłodzeniem.

Przeczytaj także:
Intel WiDi - przesyła obraz bez kabli OLED - ekrany przyszłości Nvidia 3D Vision Surround - 3D na trzech monitorach
Intel WiDi - przesyła obraz bez kabli OLED - ekrany przyszłości
Nvidia 3D Vision Surround - 3D na trzech monitorach


odsłon: 99391

Komentarze

(81)

Ciesiek

0 + - 2011-09-06 10:30

Ten artykuł zmusił mnie do zarejestrowania się w Benchmarku. Brawo! Czyta się jak dobry kryminał. Trochę mi brakowało o pamięciach asocjacyjnych i strukturach cache'ów... Może trochę więcej o RISC'ach - tak dla porównania z CISC'ami (jeszcze nie umarły)? Jak dla mnie to najlepsze co czytałem w 2011 roku. Pozdrawiam!
PS. A wszystkim polecam pobawić się z programowaniem CUDA - też daje do myślenia...

hideo

0 + - 2011-09-08 11:35

ja się bawiłem z rok temu ja miałem 9800GT i mój Phenom II nie był ani deko wolniejszy w dekodowaniu video od 9800GT cudaka hehe ;) ale fakt 9800GT to już stara grafa

pgrynk01

0 + - 2011-09-06 11:15

A co ze zmianą materiałów z których będą produkowane rdzenie? Grafen może w znacznym stopniu zniwelować ograniczenia pojedynczych rdzeni, jak np: taktowanie do 200 GHz i proces technologiczny do 0,5 nm (jak czytałem w którymś z poprzednich artykułów na benchmarku).

Irrlicht

0 + - 2011-09-06 12:15

200 GHz to ewentualnie malutkie elementy wielkości ziarnka piasku tu i ówdzie. Jakby cały procesor grafenowy działał przy 20 GHz to byłby sukces. Prędkości światła nie obejdziesz, a przy 200 GHz przebycie przez informację dystansu 1 centymetra to ponad 6 cykli zegara. Drugie 6 cykli żeby odesłać wynik z powrotem. To dopiero by były "puste MHz", przy których NetBurst-owy Pentium 4 byłby arcydziełem efektywności. Przy takich opóźnieniach trzeba by jakoś zintegrować jeszcze te gigabajty RAM z CPU+GPU żeby to jakoś działało.

saddam

0 + - 2011-09-06 14:30

Spoko tylko, ze elektrony nigdy nie poruszają sie z predkością światła, a 1cm to kosmicznie wielki dystans w przypadku jednostki wykonawczej procesora przy współczesnych wymiarach procesu technologicznego. Pamiętam, ze na początku lat 90 oglądałem w TV na temat projektowania jednego z procesorów i wyzwaniem dla nich bylo zaprojektowanie ukladu tak, aby cache znajnował się nie dalej niż 3mm od jednostki wykonawczej w celu efektywnego wykorzytania taktów układu.

michal_229

0 + - 2011-09-06 14:51

Elektrony nie poruszają się z prędkością światła, ale prąd (jako sygnał) tak. Tak samo, jak powietrze nie musi poruszać się z prędkością dźwięku, aby sygnał dźwiękowy poruszał się z taką prędkością. Pogmatwałem trochę... ;)

saddam

0 + - 2011-09-06 15:06

W sumie racja. Przepływ prądu nie jest fizycznym ruchem elektronow tylko rożnicą potenciału. Podobnie jak fala dzwiękowa nie jest ruchem cząsteczek powietrza. +

Promilus

0 + - 2011-09-06 16:59

Dokładniej to ruch elektronów jest właśnie prądem, różnica potencjałów (czyli napięcie) ten ruch elektronów pobudza, zaś to co się rozchodzi z prędkością światła to fala em pobudzająca elektrony. Z odległościami i impedancjami niestety wiążą się różne efekty - otóż fala em. może ulec na końcu linii odbiciu - częściowemu lub całkowitemu - dlatego projektowanie VLSI IC niestety wymaga sprawdzania tego typu zjawisk - bez tego może się okazać, że pamięć 1333MHz działa idealnie, a pamięć 1600MHz powoduje powstanie zakłóceń na takim poziomie, że zawsze będą błędy transmisji.

marcin1ja1

0 + - 2011-09-07 11:36

"Dokładniej to ruch elektronów jest właśnie prądem" - z tym stwierdzeniem nie mogę się zgodzić. Elektrony są w ciągłym ruchu co nie oznacza, że płynie cały czas prąd.
Prąd jest to ruch ładunku elektrycznego w określonym przez różnice potencjałów kierunku.

marcin1ja1

1 + - 2011-09-07 11:43

Co do artykułu 1 klasa. Jeszcze nie przeczytałem całego dokładnie, ale Pan Marcin :) odwalił kawał dobrej roboty. Mam nadzieje, że takich artykułów będzie więcej a mniej o tym, że w Tesco będzie darmowe WIFI.

Promilus

0 + - 2011-09-07 11:50

W takim razie dokładniej - uporządkowany ruch elektronów ;) Swoją drogą w obwodzie zamkniętym o zerowej rezystancji (nadprzewodnik) nie masz różnicy potencjałów, a prąd może płynąć. Jasne, może być też ładunek dodatni, tylko najczęściej ruchliwość nie ta...

marcin1ja1

0 + - 2011-09-07 12:09

Coś ty się tak czepił tych elektronów :). Powtarzam Ci jeszcze raz ŁADUNKU. Nie można dawać równości między elektronem a ładunkiem. Jeżeli chodzi o nadprzewodniki to nie jest też tak jak piszesz, ale to już jest temat rzeka, którego nie chce mi się tutaj poruszać.

Promilus

0 + - 2011-09-07 13:03

Przecież napisałem, że może być też ładunek dodatni (w półprzewodniku dziury, w elektrolitach i gazach kationy). A uczepiłem się elektronów bo w przewodnikach stałych to one i praktycznie tylko one są nośnikami ładunku, zaś w półprzewodnikach one mają właśnie większą ruchliwość (przez co NPN i FET z kanałem N mają lepsze właściwości jeśli chodzi o straty energii w stanie nasycenia).

marcin1ja1

0 + - 2011-09-07 13:26

No właśnie są NOŚNIKAMI ładunków i w chmurze elektronowej (charakterystycznej dla przewodników CS) elektrony biorą udział w przenoszeniu ładunku. To tak samo jakbyś napisał, że kolej transportuje wagony a nie towar czy ludzi.

Promilus

0 + - 2011-09-07 14:28

Wiesz, różnica jest taka, że do wagonu się towar czy pasażerów wsadza, a później wyciąga. Ładunku elektronu nie przekażesz następnej cząsteczce - on "płynie" TYLKO dlatego, że sam elektron "płynie". Tak samo masa... jak płynie strumyk można napisać, że to uporządkowany ruch masy (cecha fizyczna cząstek) dzięki nośnikom masy (samym cząsteczkom) wywołany grawitacją. To jest taka analogia ;) A czemu się "uczepiłem" elektronów? Może przeczytaj całą dyskusję, a nie ostatni komentarz to będziesz wiedział.

marcin1ja1

0 + - 2011-09-07 15:08

Gdybyś wiedział, którego sformułowania się "czepiłem" :) to być nie kontynuował dyskusji. Chodziło mi o to że napisałeś że "prąd to ruch elektronów". Może porównanie z pociągiem nie jest idealne ale miało tylko wskazać na to, że mówi się - co się transportuje a nie czym. Nie neguje wszystkiego co powiedziałeś, chciałem tylko doprecyzować Twoją wypowiedź.

Promilus

0 + - 2011-09-07 15:16

Tak jak ja wypowiedź saddama - po co zagłębiać się niepotrzebnie w fizykę?

pgrynk01

0 + - 2011-09-06 18:59

CYT: "A już dzisiejsze próbki inżynieryjnych procesorów z grafenu mają taktowanie 155 GHz." -art. z 2011-08-20


cyt: "Jak się okazuje, przy 120 nanometrach udało się osiągnąć częstotliwość układu wynoszącą 300 GHz - czyli trzy razy więcej niż w przypadku rozwiązania giganta IBM. (...) W planach jest już wykonanie próbki wytworzonej w technologii 50 nm, która ma pozwolić osiągnąć gigantyczną częstotliwość rzędu 1 THz! (sic!) (...) Która jak się okazuje od tej stosowanej w przypadku standardowych układów krzemowych różni się jedynie wymianą krzemu na grafen." -art. z 2011-09-06



Co sie nie da jak się da!!!

Irrlicht

0 + - 2011-09-06 22:55

Jak poszukać dokładniej w źródłach, to te 155 GHz to był pojedynczy tranzystor, a w artykule na benchmarku redaktora poniósł entuzjazm i poprzeinaczał paskudnie.

Warmonger

0 + - 2011-09-06 12:07

Dobry artykuł, nie zauważyłem żadnych bzdurek. Choć to wymachiwanie jądrami na ostatniej stronie nieco razi ;)

Irrlicht

0 + - 2011-09-06 12:20

Zgadzam się. Już dawno na Benchmarku nie było artykułu na tym poziomie. Niektórzy mogli by się uczyć jak wygląda rzetelny artykuł na tym przykładzie.

saddam

0 + - 2011-09-06 14:31

Świetny artykuł! Oby więcej takich na banchmarku.

Ajschylos

0 + - 2011-09-06 15:45

Bardzo dobry artykuł , podzielam opinie przedmówców , bardzo dobrze mi się go czytało .

franekkimono

0 + - 2011-09-06 16:03

Rewelacyjny artykuł. Czy ostatnie odkrycie Intela czasem nie jest kopią projektu IBM np. procesory Cell?

NextGen1987

0 + - 2011-09-06 16:08

Bardzo dobry aktykuł, odemnie ''piątka''. Gratulację dla autora/ów.

loccothan

0 + - 2011-09-06 16:10

Bardzo zasadniczy artykół, dużo wiedzy.
Ogółem poszerza horyzonty :-) POLECAM !!!

mlodyb13

0 + - 2011-09-06 16:27

bardzo fajny art ale śmierdzi troche kryptoreklamą
zgadnijcie kogo

mICh@eL

0 + - 2011-09-06 16:43

Więcej takich artów, a nie poradników o nawigacji czy tych śmiesznych TOP 10 ;)

tomcug

0 + - 2011-09-06 17:00

Marzenie :E. A sam art bardzo dobry ;).

derekpl

0 + - 2011-09-06 17:33

+1

LUK.MAL.94

0 + - 2011-09-06 17:39

Oby więcej tego typu artykułów.

Marked

0 + - 2011-09-06 17:57

Rewelacyjny art,sporo się dowiedziałem:)

Trantigne

0 + - 2011-09-06 18:13

Świetny art, oby więcej takich :)

malyperelka

0 + - 2011-09-06 18:15

Jestem pod wrażeniem . Dużo pracy zostało włożone w ten artykuł , duży plusik dla Marcina B.
Liczę na więcej publikacji tego typu , podnosi to prestiż BENCHMARKA .
Mam już dosyc głupawych recenzji typu "najlepszy,najpiękniejszy dla każdego tablet firmy XXX i w dodatku niedrogi ,tylko klawierki w nim brak , ale to nieistotny szczegół ".
Pozdro ALL.

Bosman

0 + - 2011-09-06 19:11

Czyli wychodzi na to, że zwiększanie taktowania jest najskuteczniejszym sposobem podniesienia wydajności układu, co zresztą jest logiczne. Dodatkowym atutem jest też to, że kod pisany pod starsze generacje procesorów, a więc nie wykorzystujący nowszych instrukcji również przyspieszy, bo przy użyciu pozostałych technik niekoniecznie.

haveano

0 + - 2011-09-06 20:43

brawo, super artykuł, nie mogłem sie oderwać od lektury.

Wnoszę o premię dla autora! Albo przynajmniej mu polejcie ;>

strzelec52

0 + - 2011-09-06 21:40

Na 7 stronie jest błąd :P
"...każdy z rdzeni jest w stanie przetwarzać do 128 wątków jednocześnie – po cztery watki na rdzeń..."

ale artykuł na 5 :D brawo dla autora.

randallandhopkirk

0 + - 2011-09-06 21:40

Oby takich artykułów-perełek było jak najwięcej !!!! BRAWO!

BadWolf

0 + - 2011-09-06 21:56

Gratulacje dla autora super artykuł miło było przeczytać!!

a3001550

0 + - 2011-09-06 22:30

Ten artykuł, niezbyt lotny ale znośny (bez obrazy, znośny to dobra ocena, dał się przeczytać) powoduje, że znów tęsknię za piórem Pana Jona Stokes z ArsTechnica. Najlepsze, szczegółowe artykuły o procesorach sprawnie przedstawione w sposób zrozumiały 'dla mas'.

TobiWUJO

0 + - 2011-09-06 22:59

- do czasu, jak dalej wszystko będzie oparte na miedzi, srebrze i krzemie, zaden rewolucyjny skok sie nie zapowiada, wiadomo przeciez ze kazdy material ma swoje granice termiczne oraz przewodzące :) a cała ta wielordzeniowość to "ogrzewanie starych kotletów" i przyrosty mocy co jakiś czas po kilkadziesiat mhz, przydala by sie w koncu jakas nowa rewolucja w tej dziedzinie na poziomie nm

CougarV6

0 + - 2011-09-07 00:00

Nie wierzę. Pierwsza chyba od 2 lat w pełni profesjonalna,poważna i naprawdę wartościowa publikacja na benchmark.pl
Można?

Gasek

0 + - 2011-09-07 01:05

Tekst bardzo ciekawy, tylko nie na 1 w nocy;] jutro doczytam, ale + poleciał

Waldeusz

0 + - 2011-09-07 01:33

Tez jutro przeczytam ponownie. Już 1:30 i mam obniżone taktowanie "białkowca" ;) Zasłużony +

cassandra

0 + - 2011-09-07 04:57

Fantastycznie. Drobne nieścisłości ale ogólny poziom powalający! Nie mogłem się powstrzymać przed rejestracją na benchmark ;) bo pod takim artem trzeba gratulować i prosić o jeszcze. Nie używam kompa do gier (no może czasem Unreal; oczywiście pierwszy ;) ale bardzo mi potrzeba mocy w zabawach z kryptografią i tu już niczym się nie zastąpi wydajności obliczeń... CUDA przybywajcie.

Promilus

0 + - 2011-09-07 08:55

Akurat w przypadku kryptografii to od GF@CUDA jest lepszy Radeon@OpenCL -> większa wydajność integer & bitwise.

mateXone

0 + - 2011-09-07 08:04

czy Tesla może wpłynąć na wydajność codziennej pracy w np. Photoshopie albo Lightroom? tak tylko z ciekawości pytam...

Promilus

0 + - 2011-09-07 08:54

Tak samo jak Quadro albo GeForce z takim taktowaniem/pamięcią/ilością CUDA Cores. Tesla jest do ściśle obliczeniowych aplikacji CUDA zw. z bankowością, geologią, sejsmiką, chemią itp.

saddam

0 + - 2011-09-07 10:13

W Photoshopie masz tylko akceleracje viewport'u. Nie wiem czy działa na GF ale na Qaudro sprawuje sie bardzo dobrze. Warto zaznaczyć, że nie ma to nic wspolnego z CUDA.

Na CUDA działa jedynie akcelaracja kilku podstawowych efektow na krzyz. Nawet w najnowszych wersjach pakietow. W celu wykorzystania zalet GPGPU we wspomnianych programach trzeba skierowac sie w strone komercyjnych plug-in'ow.
W przypadku After Effects i Premiere Pro jest nieco lepiej ale bez rewelacji.

Widzący

0 + - 2011-09-07 09:05

Artykuł wyrasta ponad poziom Benchmarka, czyli trend może będzie pozytywny.
Co do CUDA to należy pamiętać że te wszystkie CUDA to są tylko i wyłącznie koprocesory wspomagające obliczenia pewnego rodzaju.
Kiedyś CPU nie miały wbudowanej jednostki zmiennoprzecinkowej, obliczenia te były wykonywane przez osobny układ scalony zwany koprocesorem arytmetycznym.

may_pl

0 + - 2011-09-07 10:43

Bardzo dobry artykuł, na studiach uczyłem się o prockach do 2003roku a teraz miałem kontynuację historii wybiegającą w przyszłość ;) dlatego używam 2x6990 do obliczeń zmiennoprzecinkowych :)
ps.pozdrowienia dla autora

Kierownik

0 + - 2011-09-07 11:46

Pomyliłem strony? Nie to nadal benchmark... Zamiast nędznych kłótni fanbojów NV/AMD Intela/AMD PC/konsol mamy coś może trochę ciężkostrawnego, ale ciekawego, nowego i zmuszającego do myślenia.

Takie tekst powinny być umieszczane zamiast recenzji laptopów, które zniechęcają do tego serwisu.

unicode

0 + - 2011-09-07 14:33

Gratuluję, fajny artykuł.

deestrzy

0 + - 2011-09-07 17:51

Miło się czytało. Dzięki!!

PS. Możnaby się pokusić o dalsze poszerzenie o informacje spoza stajni AMD i Intela:

>seryjnie produkowane najszybsze układy pracują z częstotliwością ok. 3,6–3,7 GHz (np. AMD Phenom II X4 980 Black Edition – 3,7 GHz, czy Intel Core i7 3820 pracujący standardowo z częstotliwością 3,6 GHz, a w trybie Turbo 3,9 GHz).

Dla przykładu:
IBM z10: 4.4 GHz
IBM z196: 5.2 GHz
IBM POWER6: 5.0 GHz
IBM POWER7: 4.25 GHz

Zon-k

0 + - 2011-09-08 01:02

Wielki pokłon, artykuł roku najmniej.

Aż się łezka zakręciła jak pomyślę, że zaczynałem od 4,7 Mhz, a potem zrobiłem przesiadkę na znacznie szybszy 0,9 i 1,79 Mhz :))

Jedna mała dygresja co do komentarzy typy 100-200 GHz. Co innego jest częstotliwość pracy bramki czy tranzystora, a co innego procesora, proszę się tak nie zagalopowywać ^^
Pozdrawiam

may_pl

0 + - 2011-09-08 02:09

Ja zaczynałem przygodę z prawdziwym PC od Intel i486DX2, wcześniej C64 itd. :) w 98' roku celeron 300A potęga podkręcania i następny krok to już w 2002r Pentium 4 2.53Ghz :) ....to były czasy... ;)

Waldi_W

0 + - 2011-09-08 09:36

Mój pierwszy komputer...aż mi się łezka zakręciła...miał Pentium II 350 Mhz; 64 MB SD RAM 100 Mhz; Dysk WD Caviar 4,3 GB; Karta graficzna TRIDENT BLADE 3D 8MB; Płyta główna Acorp z chipsetem intel 440bx i napęd cd-rom LG 32x :-) Pykałem wtedy w dooma 2, carmageddon 2, Age of Empires 1 oraz 2 oraz gra, która mnie wciągnęła do świata Erathii na wiele, wiele lat - Heroes III of Might&Magic

hideo

0 + - 2011-09-08 11:53

ja w 1987r od Atari 65XE/130XE/800XL/800XE (każdy z nas kilku kolegów miał inny model ale wszystkie kompatybilne :) i PC 286/386 coś około lat 1991-92 a w podstawówce mieliśmy nawet IBM XT czy AT nie pamiętam już dokładnie hehe choć i tak w tamtych czasach od 1991r dla mnie rządziła Amiga jak tylko ją poznałem :) bo w pc to wtedy nawet dobrego dźwięku nie było (a raczej ludzie nie mieli, wszystko pierdziawki z głośniczka systemowego a Amiga całkiem miała dobry dźwięk i dobrą grafikę :) choć fakt dyskietki... ale czekało się aż się wczyta z niecierpliwością i podekscytowaniem :D

silvver

0 + - 2011-09-08 10:26

tyle mądrych słów, że nie wiem od której strony zacząć czytać :)

hideo

0 + - 2011-09-08 11:33

fajny art jeden z lepszych na necie napisany widać przez kogoś kto trochę więcej wie o temacie niż przeciętni redaktorzy większości portali, choć chyba wdarł się maleńki błąd se skrótem "kość typu MMP (Massively Parallel Processors)", tak więc przyszłość to gpgpu/apu i zminiaturyzowane klastry

Naleśnik z serem

0 + - 2011-09-08 18:50

Knights Ferry Intela to nic innego jak koncepcja własnego procesora o budowie podobnej do SONY Cell. Niestety ale Japończycy pokazali że potrafią wybiec w przyszłość znacznie dalej.
Artykuł ciekawy.

Promilus

0 + - 2011-09-08 19:20

Bzdura. Knights Corner (Ferry to dev board) to procesor homogeniczny (wszystkie rdzenie takie same, równy dostęp do pamięci) a Cell jest heterogeniczny (1PPE+kilka SPE, PPE ma listę rozkazów POWER ISA 2.04 bodajże i przetwarza 2 wątki sprzętowe, SPE mają listę rozkazów podobną do VMX czyli jednostki wektorowej POWER i PowerPC, pomijam już ograniczenia SPE względem PPE). Knights Corner ma wspólny duży cache L2, Cell ma osobne L2 dla każdego rdzenia i rdzenie komunikują się i dzielą dane za pomocą EIB. Knights Corner ma słabe rdzenie x86 chyba nawet in-order wzbogacone o 512bitową jednostkę wektorową (czyli 16x32bit na rdzeń) A PPE ma 2x128 bit jednostkę wektorową (8x32bit) zaś SPE są 128bit (4x32bit). Gdzie tu ta sama koncepcja to nie wiem.

hideo

0 + - 2011-09-08 21:36

Cell to konstrukcja tylko w części japońska (Sony i Toshiba) bo główny projektant to Amerykanin z IBM

Naleśnik z serem

0 + - 2011-09-09 14:35

Zgadza się to konstrukcja wspólna (większość inżynierów była z IBM + kilku z SONY i Toshiby) ale główny patent należy do tych dwóch panów z SONY:
http://www.google.com/patents?id=DjyeAAAAEBAJ&printsec=abstract&zoom=4#v=onepage&q&f=false
O kim z IBM mówisz?

Naleśnik z serem

0 + - 2011-09-09 14:39

Widać na nim PE, APU, Local Stores, rejestry, a nawet switch (czyli zarys EIB). 128-bitowe rejestry pochodzą od Toshiby (bardzo możliwe że od Shigehiro Asano).
Tak więc Cell to nie IBM ale STI. Nawet zaryzykował bym stwierdzenie że więcej w nim SONY niż IBMa.

Promilus

0 + - 2011-09-09 16:03

In mid-2000, Sony Computer Entertainment, Toshiba Corporation, and IBM formed an alliance known as "STI" to design and manufacture the processor.[7]
The STI Design Center opened in March 2001.[8] The Cell was designed over a period of four years, using enhanced versions of the design tools for the POWER4 processor. Over 400 engineers from the three companies worked together in Austin, with critical support from eleven of IBM's design centers

Patent zaprezentowany przez ciebie pochodzi z 2002r czyli rok po otwarciu centrum projektowego STI ;) Teraz żeby było śmieszniej PPE to pochodna rdzenia procesora POWER4 - od IBM ;) Z kolei SPE to odległy kuzyn jednostki wektorowej procesorów POWER oraz PowerPC (czyli VMX) - jest zgodny z Altivec (VMX) na poziomie źródeł - czyli appsy pisane pod AltiVec mogą być skompilowane do SPE praktycznie bez zmian. Jeszcze ciekawa rzecz - AltiVec wykorzystuje od początku 128bit rejestry więc nie wiem skąd pomysł, że te w Cellu akurat pochodzą od Toshiby :) Sposób wykonania konkretnych bloków Cella pochodzi w większości od IBM, koncepcja procesora jako takiego może być Sony.

Naleśnik z serem

0 + - 2011-09-09 20:54

Prace rozpoczęto w marcu 2001 roku - dokładnie wtedy SONY złożyło wniosek patentowy - przyjrzyj się masz tam napisane "Filed March 22 2001". Sama koncepcja jest podobna - tyle że we wniosku mamy opisany CPU z 32-rdzeniami połączonymi optycznie.
Po za tym nie wiem skąd masz info, że SPU są pochodną PowerPC (http://sites.google.com/site/konsolki/sonyplaystation32 - tutaj pisze, że to całkiem inne rdzenie - widać to nawet na zdjęciach).
Rejestry są prawdopodobnie pochodną rejestrów Toshiby (SONY EE) ponieważ EmotionEngine posiadał także 128-bitowe rejestry, podobnie do Cell szynę (BUS) pomiędzy 2-ma jednostkami wektorowymi (http://www2.cs.ucy.ac.cy/~epl605/readings/00809374.pdf) taktowane połową częstotliwości rdzenia (podobnie jak Cell). Cell ma ich trochę więcej bo 128 rejestrów na rdzeń. Oczywiście trzeba było wszystko przekonstruować aby każda ze stron mogła wykorzystać procesor do swoich celów (Superkomputer, konsola, TV).
Opieram się głównie na wnioskach patentowych. Podejrzewam, że ten wniosek tak że ma podłoże w Cellu z 1998roku (opisuje połączenie dwóch CPU do dwóch różnych szyn [BUS]; zauważ Data Train 16B - dokładnie tyle ile leci z rdzenia w Cellu):
http://www.google.com/patents?id=8asIAAAAEBAJ&pg=PA3&dq=Data+transfer+method+and+device+yamamoto&source=gbs_selected_pages&cad=4#v=onepage&q&f=false
Odnośnik to tej publikacji można także znaleźć na stronie IBM.
Oczywiście nie stwierdzam wprost czegoś, zostawiam sobie margines błędu. Nie twierdze, że też nie masz ra

Naleśnik z serem

0 + - 2011-09-09 21:01

Po za tym tu http://www.ibm.com/ibm100/us/en/icons/cellengine/ masz napisane, że STI powstało wiosną 2001 roku ;)

Promilus

0 + - 2011-09-10 00:24

Kolego rejestr to odpowiedni układ przerzutników realizujący komórki z zatrzaskującą się pamięcią - tak jak SRAM praktycznie w każdej architekturze wygląda tak samo.
"Po za tym nie wiem skąd masz info, że SPU są pochodną PowerPC"
Bo mam oczy i widzę, natomiast ty nie widzisz, że pisałem iż pochodną POWER jest PPE (i dokładnie jest zgodne z POWER ISA 2.04+) oraz, że pochodną VMX (czyli jednostki SIMD POWER/PPC, a nie całego PPC) jest SPE. Parę detali znajdziesz http://en.wikipedia.org/wiki/Cell_software_development#Differences_between_VMX_and_SPU
a parę tutaj:
http://www.blachford.info/computer/Cell/Cell1_v2.html
Jeszcze raz - odróżnij koncepcję (jak pad komputerowy Kubricka w Odysei albo Rodenberry'ego w Star Treku kilkadziesiąt lat temu) od realizacji (jak iPad, Galaxy Tab itp.)

Naleśnik z serem

0 + - 2011-09-10 01:11

Zdaje sobie sprawę ze cały RISC to wytwór IBM ale..
Jeśli wspomniałem o rejestrach to nie bez powodu. Pierwszym procesorem z 128-bit Multimedia Extesion był:
http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=799870
Rejestr ma długość 128-bit i tyle każdy rdzeń SPU wysyła po EIB w jednym cyklu (768-bit/cykl; czyli np. do drugiego SPU które pracę może wstrzymać, pauzować, a nawet wznawiać). W EE każdy z dwóch Vector Unit (a były tam 2 sztuki) też wysyłał 128-bit po wewnętrznej szynie i też był rdzeń kontrolny. Chodzi mi tylko o podobieństwo działania.
Inną rzeczą jest (choć nie jestem żadnym ekspertem) to, że koncepcja jest tak naprawdę najważniejsza. Projektując BUS, czy też jakieś nietypowe połączenie (a EIB jet takim) musisz najpierw się zastanowić jak ma wyglądać operacja obliczeń, ich transportowania i przechowywania. Według ciebie gość sobie siada i wymyśla - OK to połączę z tym, to tak sobie narysuję i jakoś będzie działać?
Można budować system pod hardware lub hardware pod system.
Tak przynajmniej mi sie wydaje.
Pzdr.

Promilus

0 + - 2011-09-10 08:09

Dokładnie tak... siada koleś, rysuje bloczki, nakreśla swoje idee, a potem jak przychodzi co do czego to się zastanawia "jak cholera to mam zrealizować" za PU i APU nie kryło się nic - to był tylko jakiś abstrakcyjny rdzeń CPU. Tak samo za EIB itp. nie kryły się konkrety oprócz szerokości linii i tego gdzie co będzie połączone do EIB - dopiero przy realizacji okazało się jakie jest max taktowanie, jakie są opóźnienia itp. Od bloczków które reprezentują tylko idee działania się zaczyna, to pierwszy krok i względnie łatwy w porównaniu z kolejnymi - czyli obdarzenia bloczków realną funkcjonalnością, a później przeniesienie tego do krzemu.

Naleśnik z serem

0 + - 2011-09-10 09:37

Z całym szacunkiem ale całkowicie się z tobą nie zgadzam. Przeniesienie na krzem to dla takiej Toshiby, która robi podobnie jak IBM półprzewodniki od dziesięcioleci (Toshiba np. wynalazła pamięć flash) to żaden problem. O ile masz racje, że zarys to zarys o tyle ja twierdze, że w przypadku realizacji projektu jest on równie ważny jak same technikalia. Zauważ

Ten opis (wypunktowany z miejscu "Claims" i "Description" jest dość szczegółowy - ma łącznie 190 podpunktów):
http://www.freepatentsonline.com/y2002/0138637.html
Podobnie ten opis nie jest pozbawiony schematu jak ma wyglądać realizacja instrukcji:
http://www.google.com/patents?id=DjyeAAAAEBAJ&printsec=abstract&zoom=4#v=onepage&q&f=false

Naleśnik z serem

0 + - 2011-09-10 09:44

Ogólnie patent ten występuje pod kilkoma nazwami - z drobnymi zmianami - tutaj np. z różnymi datami i różnymi nazwami:
http://www.google.com/search?tbm=pts&tbo=1&hl=en&q=Memory+protection+system+and+method+for+computer+architecture+for+broadband+networks&btnG=Search+Patents

Promilus

0 + - 2011-09-10 12:01

Realizacja instrukcji? Nie ma tam ani słowa o instrukcjach, a jedynie ogólnie ujęta realizacja synchro danych między APU (np. celem równoległego przetwarzania geometrii sceny 3D), komunikacji z poszczególnymi poziomami pamięci itp. Z tej koncepcji nie wynika Cell taki jakiego znamy. Gdyby wszystkie bloki APU zamienić na AVX a PU na procesor x86-64 to nadal koncepcja byłaby taka sama, ale realizacja zupelnie inna. Tak samo gdyby blok cache SRAM zamienić na 1T-SRAM albo eDRAM. Koncepcja zostaje ta sama, zmienia się realizacja. Przy okazji - realizacja koncepcji jakiegoś procesora to odpowiednie układanie klocków... w przypadku SRAM i rejestrów nie ma problemu - to uniwersalne klocki. Zaś ALU, FPU itp. to konkretne puzzle dopasowane do konkretnej architektury - o ile np. cache L1 takiego Pentium III czy POWER7 wyglądają podobnie i są tak samo funkcjonalne, o tyle ALU lub FPU to całkiem inna sprawa. Ogółem nie wiem do czego chcesz przekonywać, bo wszystko co napisałem jest mocno umotywowane, natomiast Ty ciągle podajesz praktycznie jeden i ten sam patent powstały w czasach współpracy w obrębie STI i nie pokazujący co konkretnie pod APU i PU/PE się kryje.

Naleśnik z serem

0 + - 2011-09-10 13:34

SPU są dość uniwersalne i nie potrzebują PPE (Power) do pracy. Przykład:
http://en.wikipedia.org/wiki/SpursEngine
Drugi przykład to najnowszy CPU Toshiby (3xARM+3GPU+Edram) wyposażony w pochodną SPU (co-processor):
http://nl.hardware.info/reviews/2081/5/toshiba-cevo-tvs-met-7-core-arm-processor-cevo-engine
Bardzo możliwe że PS4 będzie miało podobną budowę.
Poza tym co tak niesłychanego jest np. instrukcjach przekształcających macierz? Zwykła matematyka.
Znalazłem też wpis na jednym z forum (nie wiem czy prawdziwy - choć na temat architektury napisano książkę), w którym to można sie dowiedzieć że w koncepcji Toshiba chciała same SPE a IBM PPE. Kompromis był taki, że zrobiono PPE+SPE:
http://www.psu.com/forums/threads/2252-The-history-of-the-CELL?s=295fe5ad908ad50ef7bc616bfe049673

Promilus

0 + - 2011-09-10 14:35

Spursengine leci na PCIe i nie działa jako autonomiczna jednostka - nadal potrzebuje PPE, w tym wypadku jego rolę przejmuje CPU hosta, np. ARM albo x86 + odpowiedni sterownik.

lukiiiii

0 + - 2011-09-10 22:09

Super artykuł, oby więcej.

Room429

0 + - 2011-09-11 14:54

Dzieki za swietna lekture na niedziele. Oczywiscie lapa w gore.

kadoel

0 + - 2011-09-12 16:20

Bardzo dobry artykuł. Przypomniały mi się czasy przedmiotu Architektura i organizacja komputerów i pisanie programów w asemblerze dla WinDLX. Bawienie się z przetwarzaniem potokowym i optymalizacja kodu.

kadoel

0 + - 2011-09-12 16:21

http://www.wykop.pl/link/875377/procesory-wielordzeniowe-co-szykuje-przyszlosc-desc-www-benchmak-pl/ proszę o WYKOP

solau

0 + - 2012-02-26 02:17

Baaardzo dobry artykuł
Polecam !

 
zgłoś naruszenie netykiety lub złe
zachowanie

Polecamy

SteelSeries Diablo 3 Headset, Mouse i QcK Limited Edition - test, cena, opinie
Akcesoria SteelSeries to pozycja obowiązkowa dla każdego fana gry Diablo III. ...
kategoria: myszki producent: SteelSeries Ocena: 2 10
HTC One V - test, cena, opinie
HTC One V to świetny smartfon uniwersalny, którym posłużyć może się ...
kategoria: smartfony, telefony producent: HTC Ocena: 9 17
Creative ZiiSound D5x i DSx oraz GigaWorks G500 - test, cena, opinie
Test głośników Creative ZiiSound (bezprzewodowe) oraz GigaWorks ProGamer ...
kategoria: głośniki producent: Creative Ocena: 7 24
Asus Transformer Pad 300 - cena, test, opinie
Bardzo dobrej jakości moduły foto-wideo, wysoka wydajność dzięki ...
kategoria: tablety PC producent: Asus Ocena: 6 26
Poradnik komunijny 2012
Wspólnie z Partnerami przygotowaliśmy poradnik komunijny. Zawarliśmy w nim ...
kategoria: drukarki, skanery producent: Asus Ocena: - 142