Az IBM demózta a Cell processzorát, a Linux már fut rajta

 ( trey | 2005. május 27., péntek - 8:44 )

Csak néhány embernek volt olyan szerencséje, hogy a napokban egy Los Angeles melletti szállodában megnézhette működés közben az IBM (Sony - Toshiba) egyik forradalminak tartott fejlesztését, a Cell CPU-t.


Két Cell processzor egy blade-en



A Cell processzoron alapuló blade szerver 2.6.11-es Linux kernelt futtatott. A 3 GHz-en működő Cell processzor elméletileg képes 200 GFLOPS teljesítmény leadására.






``Kis cooler'' azért kell rá :-D



Bővebben itt.

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

tudok egy csokkal jobbat. Pipe cső | vezeték mikor a jelentése vezető :P átvezető :)

Chip wrote:
> G4 az 32- , a G5 meg 64bit. Tudtommal az ilyen jellegu valtasoknal
> 'torvenyszeru' a teljesitmenybeli visszaeses.
Nem feltétlenül, lásd AMD64 és a több regiszter esete. :)

Túl soknak tűnik ez ahhoz, hogy emiatt legyen, bár ki tudja.

Sokat dobhatna a linux terjedésének sebességén, ha a PS3-ra kijövő játékok idővel linuxra is megjelennének... ha máris fut a Cellen a linux, gondolom nem megoldhatatlan :)

Andrej! Légyszi a lényeget, okosan, egyszerűen, ahogy szoktad!
Köszi (-::

Sokat dobhatna a linux terjedésének sebességén, ha a PS3-ra kijövő játékok idővel linuxra is megjelennének... ha máris fut a Cellen a linux, gondolom nem megoldhatatlan :)

na, gratulálok a proxynak... sorry

Az elso link nagyon profi, jo kis attekintes.

Benne is van a lenyeg: "85 Celcius operation with heat sink"

Hat ehez biztos kell az a hutes ami a kepen van :)

Az X-Boxon is lehet futtatni Linuxot, még sem jelennek meg az X-Boxos játékok Linuxra... A dolog azért nem ilyen egyszerű. (bár nem megoldhatatlan :)

Ram gondolsz? :)

Ha nem, akkor is belepofazok.

Vegre bemutattak.... Ez jo pont.

A 200Gigaflops hazugsag. Marketing bullshit. Illetve itt teljesen mas ertelemben hasznaljak, mint ahogy azt szoktak, igy elegge ertelmezhetetlen. Azt pl. senki se varja, hogy 5-10 ilyennel bele lehet kerulni a top500-ba (ezt sok helyen pedzegettek). En olyan 70-80 korulire tippelem a szukseges szamot. Igy mar nem akkora durranas. Ja es a fenti bilibelogos lebegopontos teljesitmeny csak single precision eseten igaz, holott ezt hagyomanyosan mindig double-re adjak meg. Csak a Cell teljesitmenyet minimum felezi a DP (ejnye-bejnye IBM marketing). Ugye azt senki nem gondolta komolyan, hogy 3GHz-es frekvencia mellett kepes orajelenkent adott taszkon 70 muveletet vegezni (mert a 200GFlops ezt feltetelezi).

Tudom, hogy a forditas kenyes ugy, de szerintem a Cell-t, hamar forditjuk magyarra, akkor a szo "sejt" jelentesevel kellene forditani. Akkor viszont forditani kell a Northwood-ot Eszaki Fa-ra, a Thunderbird-et Viharmadarra, a Thoroughbred-et pedig Teliverre. Szerintem a markaneveket egyebkent nem kell forditani.

A kepekrol meg annyit, hogy szerintem mire megjelenik, fejlodhet annyit a gyartastechnologia, hogy azok az ormotlan hutok lekerulhetnek rola.

Andrei

> Tudom, hogy a forditas kenyes ugy, de szerintem a Cell-t,

Legyen. Bar az, hogy mikent fog ez bekerulni a koztudatba, azt nehez megmondani elore.

Erdekes modon a reklamokban mindenhol a 256GFlops megy. Mert a mutogatott slide-okban egymas melle tettek az XBox es a PC full precision teljesitmenyet a Cell csumpi single precisionjevel.

Es akkor hany darab Cell kell ahhoz, hogy bekerulja a Top500-ba? Nem 4, hanem legalabb 40, szerintem inkabb 80, de majd elvalik. Csakhat ez igy mar egyaltalan nem kulonleges, ugyhogy kenytelenek voltak csusztatni egyet, hogy a nagy szamokra erzekeny kozonseg nezhessen nagy boci szemekkel.

Az Intelt mar reg elkuldtuk volna melegebb eghajlatra ilyen csusztatasokert, es bezony-bezony a BigBlue is batran ferditgeti a tenyeket, es almat hasonlitgat kortevel.

Ez csak szándék kérdése, a Microsoft csak nem fog linuxra kiadni a konzoljához készült játékokból... viszont ha egy Tim Sweeney megír egy UT2007-et a Cellre, talán nem lesz túl nehéz átírni linuxra sem - és benne bízhatunk amúgy is, lásd ut-2k3-2k4

En meg azt is meg merem kockaztatni, hogy nem a forditoprogram fog optimalizalni, hanem valami OpenGL v. DirectX szeru API-n keresztul erhetoek el a szinergikus magok szolgaltatasai. Nem ertek a multimediahoz, nem tudom, hogy ez mennyire jarhato a Cell eseteben, de igy megusznak egy iszonyatosan komplikalt forditoprogram fejleszteset.

Cell CPU = Sejt KFE :)))

A teszt egy kalap *****.

Nem kristalytiszta, hogy az eredmenye mit jelent. Merugye tudni kellene altalanositani belole, de ugy nez ki, hogy teljesen kulonbozo teljesitmenyu procik kozott nem bir kulonbseget tenni.

> A 200Gigaflops hazugsag. Marketing bullshit.

Szerintem is.
A 8 társprocesszor ami benne van csak nagyon speciális feladatokra jó, azaz arra kell írni a kódot. Konzolproceszornak és beágyazott rendszerekbe jó, de általános számítógépet csinálni belőle... Majd meglátjuk.

Ugyanaz a helyzet mint a SIMD utasitaskeszletekkel. Ido kell mig arra optimalizalnak kodreszleteket.

Ez ennel a cell dolognal is megtortenhet, hogy valaki felkapja es optimalizal ra, de erre biztos kell meg jopar evet varni, mig elerheto arfekvesbe kerulnek ezek a gepek.

hááát.. a testesebb 775 p4-re szerelendő "gyári intel" hűtők sem a szerény méretükről híresek... így annyira már nem ilyesztő az ott a képen...

Nem erre gondoltam. Az emberek 90%-ka sebessegvaltonak hivja az autoban a valtot. Azt azonban kevesen tudjak, hogy az nem sebesseg, hanem nyomatekvalto. Megis mindenki sebessegvaltonak hivja hibasan, mert ez maradt meg a koznyelvben. De ez eleg offtopic.

Hat...
A doksi szerint 32Gigaflops koprocinkent...
4Ghz-en 8 utasitas orajelenkent az nem is olyan sok, ez egy vektorproci...
Es van 8 koprocija...

Szerintem elerheti a 200Gigaflops-ot... Ha jol van megirva a program, persze... Rosszul megirt program az osszes processzoron rosszul megy... :)

ennél sokkal durvább a slussz kulcs :) - bocs nem tudok németül írni

Vajon ezzel lehetne fűteni már? :D Mer a mostani gépem csak 1-2 fokot jelent :D

Notesz, tobbesszam noteszek, mikozben a notesz mar tobbes szam alapbol :-) Kellene nyitni egy topikot ezeknek :->

Ez olyan, mint a szkíta -szkíták. Meg nem mondom, hogy volt eredetileg, de akkor még a "t" volt a többesszám...

De nem 64 bites lebegopottyokkel csinalja mindezt.

Es a PC teljesitmenyebe sem szoktak beleszamolni a VGA-t es a DSP-t, pedig azok is tobb tiz GFLOPS-ot adnak le a fenti gondolatmenet szerint. Majd, ha valaki egy forditoprogrammal letekeri ra mondjuk a Linpack-ot, akkor az elfogadhato, addig csak egy nagy hozonges. Ennyi erovel a cegem irodajaban levo 400 asztali gep osszteljesitmenye 1.2TFlops (3Gigas P4-esek). Lehetne reklamozni szuperszamitgepkent, megsem teszi senki sem.

Meg azert erdemes lenne belegondolni, hogy a kordinacio mennyi idot vesz igenybe, mennyit kell varni a szinkronizalasra (mert a memoriabusza nem ekkora adatforgalomhoz van kitalalva). Szerintem ha Linpackon ki birnak belole csiholni 30GFlops-ot, akkor mar mindenki orulni fog. De eros a gyanum, hogy nem fog menni.

Én viszont megiLYedtem, amikor a fenti sort megláttam... ;-)

Ha elég sokat raksz be akkor igen.

LYóvanna :=( reflex vót :=(

"Ugyanaz a helyzet mint a SIMD utasitaskeszletekkel. Ido kell mig arra optimalizalnak kodreszleteket."

Szerintem tevedsz. A 8 coproci egy-egy altivec unit-nak felel meg. Javaslom figyelmedbe a gcc4.0.0-es kiadasat ami epp az ilyen egysegekre torteno optimalizalast tartalmazza nem lebegopontos muveletek eseten is.

"A 200Gigaflops hazugsag."

Hehe, nem mindig az x86-os vackokbol kellene kiindulni. ;)
Lattal te mar Altivec-et? Ajanlom figyelmedbe a PPC procik rc5-os teljesitmenyeit ahol az 1Ghz-es G4-esek alazzak a 4GHz-es AMD64-eket.
x86: http://n0cgi.distributed.net/speed/query.php?cputype=all&arch=0&contest=rc572

ppc: http://n0cgi.distributed.net/speed/query.php?cputype=all&arch=2&contest=rc572

Chip wrote:
> Lattal te mar Altivec-et? Ajanlom figyelmedbe a PPC procik rc5-os
> teljesitmenyeit ahol az 1Ghz-es G4-esek alazzak a 4GHz-es AMD64-eket.
PowerPC 744x/745x G4 1700 17,539,080.00
PowerPC 970 G5 2500 18,833,424.00

Ezt a visszaesést vajon mi okozza? Optimalizáció hiánya, cache eltérés
(G5-nél nincs L3?), architekturális különbségek?

Eddig valaki azt pedzgette, hogy kulon-kulon kezelheto, de ha siman Altivecen at akkor meg mirol megy itt a hiszti?

Egyebkent igen, lattam mar Altivecet, nem te vagy az egyetlen ezen az oldalon aki "hozzaerto". Itt most a par hozaszolassal lejebb levo folenyeskedesre reagalok.

Semmi közöm ezekhez de a teszt szerint az AthlonXP pont olyan gyors mint azonos órajelen az Athlon64. Nomost vagy az Athlon64 vagy a teszt egy kalap sza...

> A 200Gigaflops hazugsag. Marketing bullshit.
>Ja es a fenti bilibelogos lebegopontos teljesitmeny csak single precision eseten igaz, holott ezt hagyomanyosan mindig double-re adjak meg.

Az IBM.com weboldalrol:
# Peak performance (single precision): > 256 GFlops
# Peak performance (double precision): >26 GFlops

Szerintem nem rejtik veka ala. Te hogyhogy nem talaltad meg?

Khiraly

a teszt szerint az athlon mp-k azonos órajelen gyorsabbak mint mp nélküli társaik. ezek szimplán vagy duplán értendők?

Na azért én megnézném azt, hogy a gcc mikor autovekorizál annyira jól, hogy a 8 fpu magot a meghirdetett 200Gflops-nak akár a felére is ki tudja használni. A SIMD-es DSP-k nél is (amikre egyébként kisértetiesen emlékeztet a cell) azért jellemző még mindig az assembly programozás, mert a gyártó által az adott DSP típusra orrvérzésig optimalizált C fordítók sem tudnak elég jó hatásfokú kódot előállítani. Rettentően nehéz felismerni a párhuzamosítási lehetőségeket ha rosszul van megtervezve a program struktúrája. Ha egyáltalán vannak párhuzamosítási lehetőségek. Video feldolgozás, raytrace-elés, vagy Seti@home azok amikről el tudom képzelni, hogy a jól ki tudják használni a cell sok lebegőpontos egységét.
Nem véletlen, hogy a Sun pl pont fordított irányba indult el szerverprocesszorainál, ott van 8 fixpontos CPU mag és 1db FPU-val, a Cell-ben pedig 1 CPU mag és 8 FPU. Ezek egy-egy feladathoz szabott célprocesszorok, nem igazán használhatóak jól az eredeti alkalmazási területükön kívül.
Viszont egy Cell-ekből összerakott renderelő cluster nagyon ütős dolog lehet és az ilyenek miatt jó, hogy megy a Linux rajta.

szerintem elég egy is belőle

Nem ***** a teszt, egyszerűen csak cache-ből fut az egész, ezért a memóriaelérés nem számít a teljesítménybe bele. A kódtörési tesztek jellemzően ilyenek. Úgy helyes talán megfogalmazni, hogy ez az athlonxp-k igazi magteljesítménye, amit más használatban a memóriaelérés, mint szűk keresztmetszet korlátoz. Az athlon64 attól jobb, hogy megszűnteti ezt a szűk keresztmetszetet. A k8-ba 1:1 átvették a k7 végrehajtóegységeit, csak a bitszélességet növelték meg 64 bitre néhány ALU és AGU műveletnél.

De az. A linux persze linux, de a cell nagyon nem = x86.

G4 az 32- , a G5 meg 64bit. Tudtommal az ilyen jellegu valtasoknal 'torvenyszeru' a teljesitmenybeli visszaeses.