Az IBM demózta a Cell processzorát, a Linux már fut rajta

Címkék

Csak néhány embernek volt olyan szerencséje, hogy a napokban egy Los Angeles melletti szállodában megnézhette működés közben az IBM (Sony - Toshiba) egyik forradalminak tartott fejlesztését, a Cell CPU-t.


Két Cell processzor egy blade-en



A Cell processzoron alapuló blade szerver 2.6.11-es Linux kernelt futtatott. A 3 GHz-en működő Cell processzor elméletileg képes 200 GFLOPS teljesítmény leadására.






``Kis cooler'' azért kell rá :-D



Bővebben itt.

Hozzászólások

Sokat dobhatna a linux terjedésének sebességén, ha a PS3-ra kijövő játékok idővel linuxra is megjelennének... ha máris fut a Cellen a linux, gondolom nem megoldhatatlan :)

Andrej! Légyszi a lényeget, okosan, egyszerűen, ahogy szoktad!

Köszi (-::

Sokat dobhatna a linux terjedésének sebességén, ha a PS3-ra kijövő játékok idővel linuxra is megjelennének... ha máris fut a Cellen a linux, gondolom nem megoldhatatlan :)

Az elso link nagyon profi, jo kis attekintes.

Benne is van a lenyeg: "85 Celcius operation with heat sink"

Hat ehez biztos kell az a hutes ami a kepen van :)

Ram gondolsz? :)

Ha nem, akkor is belepofazok.

Vegre bemutattak.... Ez jo pont.

A 200Gigaflops hazugsag. Marketing bullshit. Illetve itt teljesen mas ertelemben hasznaljak, mint ahogy azt szoktak, igy elegge ertelmezhetetlen. Azt pl. senki se varja, hogy 5-10 ilyennel bele lehet kerulni a top500-ba (ezt sok helyen pedzegettek). En olyan 70-80 korulire tippelem a szukseges szamot. Igy mar nem akkora durranas. Ja es a fenti bilibelogos lebegopontos teljesitmeny csak single precision eseten igaz, holott ezt hagyomanyosan mindig double-re adjak meg. Csak a Cell teljesitmenyet minimum felezi a DP (ejnye-bejnye IBM marketing). Ugye azt senki nem gondolta komolyan, hogy 3GHz-es frekvencia mellett kepes orajelenkent adott taszkon 70 muveletet vegezni (mert a 200GFlops ezt feltetelezi).

Tudom, hogy a forditas kenyes ugy, de szerintem a Cell-t, hamar forditjuk magyarra, akkor a szo "sejt" jelentesevel kellene forditani. Akkor viszont forditani kell a Northwood-ot Eszaki Fa-ra, a Thunderbird-et Viharmadarra, a Thoroughbred-et pedig Teliverre. Szerintem a markaneveket egyebkent nem kell forditani.

A kepekrol meg annyit, hogy szerintem mire megjelenik, fejlodhet annyit a gyartastechnologia, hogy azok az ormotlan hutok lekerulhetnek rola.

Andrei

Erdekes modon a reklamokban mindenhol a 256GFlops megy. Mert a mutogatott slide-okban egymas melle tettek az XBox es a PC full precision teljesitmenyet a Cell csumpi single precisionjevel.

Es akkor hany darab Cell kell ahhoz, hogy bekerulja a Top500-ba? Nem 4, hanem legalabb 40, szerintem inkabb 80, de majd elvalik. Csakhat ez igy mar egyaltalan nem kulonleges, ugyhogy kenytelenek voltak csusztatni egyet, hogy a nagy szamokra erzekeny kozonseg nezhessen nagy boci szemekkel.

Az Intelt mar reg elkuldtuk volna melegebb eghajlatra ilyen csusztatasokert, es bezony-bezony a BigBlue is batran ferditgeti a tenyeket, es almat hasonlitgat kortevel.

Ez csak szándék kérdése, a Microsoft csak nem fog linuxra kiadni a konzoljához készült játékokból... viszont ha egy Tim Sweeney megír egy UT2007-et a Cellre, talán nem lesz túl nehéz átírni linuxra sem - és benne bízhatunk amúgy is, lásd ut-2k3-2k4

En meg azt is meg merem kockaztatni, hogy nem a forditoprogram fog optimalizalni, hanem valami OpenGL v. DirectX szeru API-n keresztul erhetoek el a szinergikus magok szolgaltatasai. Nem ertek a multimediahoz, nem tudom, hogy ez mennyire jarhato a Cell eseteben, de igy megusznak egy iszonyatosan komplikalt forditoprogram fejleszteset.

> A 200Gigaflops hazugsag. Marketing bullshit.

Szerintem is.

A 8 társprocesszor ami benne van csak nagyon speciális feladatokra jó, azaz arra kell írni a kódot. Konzolproceszornak és beágyazott rendszerekbe jó, de általános számítógépet csinálni belőle... Majd meglátjuk.

Ugyanaz a helyzet mint a SIMD utasitaskeszletekkel. Ido kell mig arra optimalizalnak kodreszleteket.

Ez ennel a cell dolognal is megtortenhet, hogy valaki felkapja es optimalizal ra, de erre biztos kell meg jopar evet varni, mig elerheto arfekvesbe kerulnek ezek a gepek.

Nem erre gondoltam. Az emberek 90%-ka sebessegvaltonak hivja az autoban a valtot. Azt azonban kevesen tudjak, hogy az nem sebesseg, hanem nyomatekvalto. Megis mindenki sebessegvaltonak hivja hibasan, mert ez maradt meg a koznyelvben. De ez eleg offtopic.

Hat...

A doksi szerint 32Gigaflops koprocinkent...

4Ghz-en 8 utasitas orajelenkent az nem is olyan sok, ez egy vektorproci...

Es van 8 koprocija...

Szerintem elerheti a 200Gigaflops-ot... Ha jol van megirva a program, persze... Rosszul megirt program az osszes processzoron rosszul megy... :)

Vajon ezzel lehetne fűteni már? :D Mer a mostani gépem csak 1-2 fokot jelent :D

De nem 64 bites lebegopottyokkel csinalja mindezt.

Es a PC teljesitmenyebe sem szoktak beleszamolni a VGA-t es a DSP-t, pedig azok is tobb tiz GFLOPS-ot adnak le a fenti gondolatmenet szerint. Majd, ha valaki egy forditoprogrammal letekeri ra mondjuk a Linpack-ot, akkor az elfogadhato, addig csak egy nagy hozonges. Ennyi erovel a cegem irodajaban levo 400 asztali gep osszteljesitmenye 1.2TFlops (3Gigas P4-esek). Lehetne reklamozni szuperszamitgepkent, megsem teszi senki sem.

Meg azert erdemes lenne belegondolni, hogy a kordinacio mennyi idot vesz igenybe, mennyit kell varni a szinkronizalasra (mert a memoriabusza nem ekkora adatforgalomhoz van kitalalva). Szerintem ha Linpackon ki birnak belole csiholni 30GFlops-ot, akkor mar mindenki orulni fog. De eros a gyanum, hogy nem fog menni.

"Ugyanaz a helyzet mint a SIMD utasitaskeszletekkel. Ido kell mig arra optimalizalnak kodreszleteket."

Szerintem tevedsz. A 8 coproci egy-egy altivec unit-nak felel meg. Javaslom figyelmedbe a gcc4.0.0-es kiadasat ami epp az ilyen egysegekre torteno optimalizalast tartalmazza nem lebegopontos muveletek eseten is.

"A 200Gigaflops hazugsag."

Hehe, nem mindig az x86-os vackokbol kellene kiindulni. ;)

Lattal te mar Altivec-et? Ajanlom figyelmedbe a PPC procik rc5-os teljesitmenyeit ahol az 1Ghz-es G4-esek alazzak a 4GHz-es AMD64-eket.

x86: http://n0cgi.distributed.net/speed/query.php?cputype=all&arch=0&contest=rc572

ppc: http://n0cgi.distributed.net/speed/query.php?cputype=all&arch=2&contest=rc572

Chip wrote:
> Lattal te mar Altivec-et? Ajanlom figyelmedbe a PPC procik rc5-os
> teljesitmenyeit ahol az 1Ghz-es G4-esek alazzak a 4GHz-es AMD64-eket.
PowerPC 744x/745x G4 1700 17,539,080.00
PowerPC 970 G5 2500 18,833,424.00

Ezt a visszaesést vajon mi okozza? Optimalizáció hiánya, cache eltérés
(G5-nél nincs L3?), architekturális különbségek?

Eddig valaki azt pedzgette, hogy kulon-kulon kezelheto, de ha siman Altivecen at akkor meg mirol megy itt a hiszti?

Egyebkent igen, lattam mar Altivecet, nem te vagy az egyetlen ezen az oldalon aki "hozzaerto". Itt most a par hozaszolassal lejebb levo folenyeskedesre reagalok.

> A 200Gigaflops hazugsag. Marketing bullshit.

>Ja es a fenti bilibelogos lebegopontos teljesitmeny csak single precision eseten igaz, holott ezt hagyomanyosan mindig double-re adjak meg.

Az IBM.com weboldalrol:

# Peak performance (single precision): > 256 GFlops

# Peak performance (double precision): >26 GFlops

Szerintem nem rejtik veka ala. Te hogyhogy nem talaltad meg?

Khiraly

Na azért én megnézném azt, hogy a gcc mikor autovekorizál annyira jól, hogy a 8 fpu magot a meghirdetett 200Gflops-nak akár a felére is ki tudja használni. A SIMD-es DSP-k nél is (amikre egyébként kisértetiesen emlékeztet a cell) azért jellemző még mindig az assembly programozás, mert a gyártó által az adott DSP típusra orrvérzésig optimalizált C fordítók sem tudnak elég jó hatásfokú kódot előállítani. Rettentően nehéz felismerni a párhuzamosítási lehetőségeket ha rosszul van megtervezve a program struktúrája. Ha egyáltalán vannak párhuzamosítási lehetőségek. Video feldolgozás, raytrace-elés, vagy Seti@home azok amikről el tudom képzelni, hogy a jól ki tudják használni a cell sok lebegőpontos egységét.

Nem véletlen, hogy a Sun pl pont fordított irányba indult el szerverprocesszorainál, ott van 8 fixpontos CPU mag és 1db FPU-val, a Cell-ben pedig 1 CPU mag és 8 FPU. Ezek egy-egy feladathoz szabott célprocesszorok, nem igazán használhatóak jól az eredeti alkalmazási területükön kívül.

Viszont egy Cell-ekből összerakott renderelő cluster nagyon ütős dolog lehet és az ilyenek miatt jó, hogy megy a Linux rajta.

Nem ***** a teszt, egyszerűen csak cache-ből fut az egész, ezért a memóriaelérés nem számít a teljesítménybe bele. A kódtörési tesztek jellemzően ilyenek. Úgy helyes talán megfogalmazni, hogy ez az athlonxp-k igazi magteljesítménye, amit más használatban a memóriaelérés, mint szűk keresztmetszet korlátoz. Az athlon64 attól jobb, hogy megszűnteti ezt a szűk keresztmetszetet. A k8-ba 1:1 átvették a k7 végrehajtóegységeit, csak a bitszélességet növelték meg 64 bitre néhány ALU és AGU műveletnél.