OpenSPARC T2 - GPLv2 alatt

Címkék

A Sun Microsystems korábbi ígéretéhez híven OpenSPARC T2 név és GPLv2 licenc alatt publikálta az UltraSPARC T2 (kódnevén Niagara II) processzorának dokumentációit és egyéb a további fejlesztésekhez szükséges anyagait.

UltraSPARC T2

Az elérhető dokumentációk itt. Az OpenSPARC T2 FAQ itt. A bejelentés itt.

Hozzászólások

De kár, hogy ár/teljesítményben nem igen versenyképes a PC-vel...

Nem értek az áramhoz, pedig van róla papírom. :)

Ha ezt nézem:
http://www.elmu.hu/dijak_tarifak.php

a legmagasabb tarifa (teljesítménydíjas elszámolásnál) 22,2 Ft/kWh. Ez nem tartalmazza az energiaadót és az ÁFÁ-t.
Ezekkel együtt a 22,2-ből 26,863 Ft lesz.

Vegyük azt, hogy egy US T2 fogyaszt 130 wattot (a Sun szerint 95W névleges, 123 max, ne higyjünk neki). Tételezzük fel, hogy ez a jelenleg kapható leggyorsabb, azaz 1,4 GHz-en ketyeg és 8 magot tartalmaz.

Nézzük Inteléket. A legdurvább jelenleg kapható quad core proci az X5355, amely 2,66 GHz-es és négy magos. Az Intel szerint 120W-os TDP-je van, amibe elvileg a nemsokára megjelenő (már megjelent?) X5365-ös is belefér, ez utóbbi már 3 GHz-en pörög.
Ne higyjünk az Intelnek, mondjuk azt, hogy 140W-ot eszik a procijuk, plusz tegyünk még rá 30 wattot az US integrált 10GE, memória és PCI-e kontrollere miatt, azaz legyen 170W.

A saját tesztem szerint az US T1 kb. azonos teljesítményre volt képes, mint az akkoriban megjelent Intel Sossaman per órajel, tételezzük fel, hogy ez változatlan, hiszen mind a T1, mint a Xeon fejlődött azóta, tfh, hogy ugyanannyit (az órajelre vetített teljesítményben).

Van tehát egy 130W-ot zabáló 11,2 GHz-es CPU-nk (8*1,4) és egy 140W-ot fogyasztó (elvileg ennél kevesebbet) 10,64 GHz-es CPU-nk (igazságtalan voltam, mert a) a körítés miatt 170W-ot kellene írnom, b) a 3GHz-es Xeon már itt van, tehát legyen akkor 170W-os, 12 GHz-es CPU).

Feltételezzük, hogy a körítés kb. azonos energiaigényű, azaz van egy évente 30591,5844 Ft-ot (US T1, csak a CPU) és egy évente 40004,3796 Ft-ot (Xeon, itt is csak CPU, plusz az a plusz 30W, hogy korrekt legyen).

Nincs kétségem afelől, hogy az US műszakilag jobb, a teljesítményről nincs információm, azonban arra majdnem mérget mernék venni, hogy az Intel sokkal olcsóbb lesz.
Mint fent látszik akkor is, ha azt a pár wattos különbséget beleszámítod.

Csakhogy a CPU csak egy komponens egy szerverben, a Sun pedig Xeonból, Opteronból is képes volt drágább szervereket gyártani, mint például a HP.
A helyzetet pedig erősen rontja, hogy a Sunon kívül senki más nem gyárt ilyen CPU-val gépeket...

Csodálkoznék, ha ez ezzel a procival változna, de korántsem bánnám, legyen olcsóbb a SPARC-os vas, mint a PC, akkor majd olyat veszünk. :)

Szemelyes velemenyem szerint a Sun-nok legjobban anno a linux vagott ala. Az IBM anno mesterien szivatta meg oket a linux tamogatassal. Ha annak idejen a Sun nem arrogans lenezessel all a dolgokhoz hanem a "mozgalom elere all" most nem itt tartananak.
-Meg ugye nem kellett volna az x86-os Solarist megprobalni bezuzni...

(Windriver csak majdnem kovette el ugyanezt a hibat a beagyazott rendszerek piacan. Erdekes volt olvasni egy akkori es egy mostani interjut veluk ezekrol a dolgokrol...)

Egyebkent az egyre gyorsabb/relative sokkal olcsobb pc szerverek (akar linux akar windows-al) minden nagy risc-es gyarto reszedeset alaassak a szerverpiacon.
Egy mai 4-8-16 core-s pc szerver azert mar jokora igenyeket tud kiszolgalni a legtobb cegnel.

Csak azert nem tudjak teljesen lemosni illetve kiszoritani a pc-k a nagyokat mert a pc-s architektura egyszeruen alkalmatlan egy meret utan skalazodni illetve "rendelkezesre allni". Hiaba vannak mindenfele furmanyos chipset-ek, akkor is egyszeruen "brain damaged" az egesz.
Es persze a linux bizonyos feature-oknek meg hijjan van.

Semmi, toroltem a hozzaszolasom. Nem lattam ertelmet itt ebbe belemelyedni.

(-bocs azt hittem a szokasos hup-os kotozkodes akart lenni.)

Jahh...en sem vagyok szagerto tavolrol sem, csak neha van ami ragad mert kell.
-arra mar rajottem mennyit kell(ene) meg tanulni a temaban :D

Csak 1 gyartot ismerek kozelebbrol, arrol nem akarok/lehet melyebben irni, a tobbirol meg megkopott a meglevo tudasom is az evek folyaman, de az elvek hasonlok.
-Most ne menjunk bele ki szerint melyik a jobb, melyik a kokorszaki stb.

Egy architektura skalazhatosaganak csak 1 resze a cpu. egyreszt abban is kell megfelelo smp/mp tamogatasnak lenni azert (es ha nekem jol esett le az x86 fele mmu/protected mode kezeles kicsit nehezkesebb tud lenni mint a tobbi, mert bonyolultabb) masreszt a chipkeszlet, io architektura meg tobbet tud szamitani.
-Es persze egy halom olyan feladat/alkalmazas van ami nem tud rendesen skalazodni mert vagy alkalmatlan ra, vagy mert sz*rul van megirva.

Gondolok it cache coherency, io/memory expansion issue-kra.
A szutyok pc-kben issue (vagy csak volt??) pl. az irq handling, io slot-ok szamanak szukossege.
OK, egy pc szerverben nem latszik annyira (en meg nem ertek hozzajuk) de meglepodnek ha nem az eredeti intel fele irq elkepzelesre epulne. A risc gepekben ez a fogalom hogy irq nem kerul elo, illetve az osszes io slot "dedikalt" modon van kiszolgalva, es a nagyobbakban legtobbszor menet kozben cserelheto a kartya.
Es sokkal tobb dolog tud redundans lenni mint egy pc-s szerverben.
Emellett persze az OS-nek is illene ezeket a feature-oket kihasznalni...

Azert nagyon nagyon kivancsi lennek ha megepitenek egy ilyen highend gepet opteron v. xeonra alapozva
(ugye uj chipkeszlet kellene hozza es portolni esetlegesen a unix-ot) akkor az milyen teljesitmenyt nyujtana.
-Ha ez egyaltalan lehetseges lenne. De szerintem mar csak uzleti okokbol sem fog ez elofordulni.
-De az is igaz hogy ezekben a highend gepekben levo cpu-ban kicsit tobb l2/l3 cache szokott lenni mint az x86-os cpu-kban...

Raadasul a mai sebessegek mellett klasszikus smp gepet (minden cpu minden memoriat, minden io-t egyforma ido alatt er el) egy cpu szamon tul nagyon nehez epiteni. -Irtozatos sebessegu backplane kellene hozza, x10gbs kapcsolasi teljesitmennyel, es a jelutak hossza miatt mar lehet akkor sem lenne eleg v. ok.

Na itt lep a kepbe a ccNuma... Megkockaztatom 64 cpu fele az osszes gyarto gepe ccNuma.
http://en.wikipedia.org/wiki/Non-Uniform_Memory_Access
(igaz a wikipediat ovatosan kell/lehet keszpenznek venni)
Aminek viszont igazan csak sok cpu eseten van ertelme (mert mondjuk 8 cpu eseten egy kisebb smp-s gep leveri teljesitmenyben), illetve ha nagy gepet akarok particionalni tobb OS futtatasara.

Valamifele blokkdiagrammot szerintem az osszes nagyobb unix gephez kiadtak a gyartok ott lehet nezegetni ilyeneket.
Esetleg itt is lehet erdekes dolgokat olvasgatni:
(mint minden konyv ezek sem mindenben naprakeszek)

Peter Weygant, Chris Ruemmler, Robert Sauers : HP-UX 11i Tuning and Performance, 2/E
Charles Keenan : HP-UX CSE: Official Study Guide and Desk Reference

Szamomra az alapmu a unix fejlodesehez tovabbra is ez marad:

Uresh Vahalia : Unix Internals: The New Frontiers

Regi, de nagyon atgondolt. -Mindennel foglalkozik egy kicsit, pl. ami smp/mp kornyezetben problema lehet.
(mar jo lenne ha kijonne vegre a 2ik resze)
Nekem legalabbis segitett kicsit osszeallitani a "big picture"-t a fejemben.

Es persze az alapmu:

Richard W. Stevens, Stephen Rago : Advanced Programming in the UNIX Environment, 2/E
ennek az elso kiadasa illetve Stevens bacsi mas konyvei

Aki Solaris iranyultsagu:
(ezeket nem olvasgattam meg csak van amit megvettem bolond modon)

Richard MacDougall, Jim. Mauro : Solaris Internals: Core Kernel Components
Richard Teer : Solaris' Systems Programming bar ez utobbira nezve hehe:
http://invisible-island.net/critique/APUE-SSP.html

Kurva firefox elszállt, mikor pötyögtem neked a választ...

Abban egyetértünk, hogy a PC-t nem erre találták ki, viszont miután elolvastam amit írtál, továbbra sem látom, hogy miben tud többet bármelyik nem x86 architektúra a skálázódásban (magában a processzorban), mi gátolna meg bárkit, hogy mondjuk Opteronból nagyobb rendszert építsen, ill. a CPU gyártó okosítson a procin, hogy ez lehetővé váljon.
Azaz az alkalmazhatóság gátja az, amit nem látok. :)

Cache koherencia: az Opteron 8 CPU-ig skálázható egyéb kiegészítők nélkül, kb. ezt tudják szerintem a többiek is (az Intel is, bár ott ugye némileg más a helyzet az x86-os és itaniumos fronton), bár konkrétumot fejből nem tudok (pld SPARC esetében).
A probléma ettől függetlenül mindenkinél adott, bár az nyilvánvaló, hogy egy alapvetően kevés processzoros környezetbe gyártó (x86: Intel, AMD) nem biztos, hogy olyan megoldást fog választani, ami kevés processzornál rosszabb, soknál viszont jobb.

IO, memory expansion issue-k: itt nem tudom mire gondolsz, hiszen ma már szinte mindenhol PCI (-X, ill. PC-ben ma már ugye inkább express) van, azaz IO-ban túl nagy eltérésre nem lehet számítani, memóriát meg ma már a notebookom is TB-os nagyságrendben képes (elvileg) kezelni.

Interrupt kezelés legjobb tudomásom szerint azért máshol is van, ill. lásd fent (PCI), itt sem hinném, hogy alapvető különbségek lennének. Intelék ugye nemrég kitalálták az MSI-t, amivel az interruptok rossz tulajdonságai még tovább mérséklődnek, illetve lehetőség nyílt arra, hogy az eszköz direkt "beugorjon" az interrupt handler megfelelő részére azzal, hogy megüzenheti, milyen jellegű dolga is akadt.

PC-kben is cserélhető ma már szinte minden: memória, adapterek, sőt, processzorok is. Mindez csak az OS és a hardver közreműködésétől függ.

PC-s platformon az általam ismert csúcs az IBM x466, ami 32 socketes (régi) Xeont támogat, ez négy CPU-s blokkokból építkezik, és az IBM nem kevés pénzt ölt a chipset kifejlesztésébe (olvass utána, érdekes).
Ez 64 magot jelent és elég sok memóriát, perifériát (slotot).

A másik oldalon a Newisys (Sun opteronos gépek kapcsán ismert lehet) HORUS-áról hallottam, ami 32 Opteron Socketig skálázható: http://people.fsn.hu/~bra/papers/AMD/horus_external_white_paper_final.p…
Bár itt látható, hogy vannak skálázódási problémák, egy részük nyilván jelentkezne más SMP (NUMA, ha úgy jobban tetszik :) rendszerekben is.
Ha ez a rendszer képes (ha dual core-ral működik, gondolom quad core-ral is megy) négymagos Opteronokkal is dolgozni, elvileg 128 magos rendszer lenne belőle építhető, ami azért nyers CPU teljesítményben valószínűleg lealázna sokmindent (sok más kérdést is felvet azért ez :).

Valószínűleg az eredeti kérdésre Eriknél, a HWSW vmelyik procitervező fórumán pontosabb választ kapnék. ;)

Eppen ezert irtam hogy nem csak a cpu-n mulik. Es ezert irtam hogy en is kivancsi lennek hogy mi lenne ha nagy gepet epitenenek x86-os procival.
(na meg ha nagyon igenyesen akartam volna kifejteni 1 heti kutatomunkam biztos rament volna)
En plane nem cpu es egyeb hw tervezessel foglalkozom, nem is volt kerdeses hogy mashol korrektebb valaszt kapnal. Sparc-kal kapcsolatban (is) F.E. elegge kepben van :))

"Nincs kétségem afelől, hogy az US műszakilag jobb, a teljesítményről nincs információm, azonban arra majdnem mérget mernék venni, hogy az Intel sokkal olcsóbb lesz.
Mint fent látszik akkor is, ha azt a pár wattos különbséget beleszámítod."

Ez kb. 25% különbség az energiafelhasználásban, ami rengeteg.
Neked magyar árakon kb. 10000Ft jött ki különbségre, éves szinten.
Szorozd meg ezt minimum 500-1000-el , mert ennyi gép van egy átlagos adatközpontban. Ez máris 5-10 millió forint.
Add hozzá a 25%-os energiafelhasználás miatti nagyobb hőterhelést, és az ehez szükséges extra hűtési költséget.

Jelenleng MÉG elég olcs a villamosáram magyarországon.
Amerika egyes vidékein kevés és drága az áram. Az áramszolgáltatók visszatérítést adnak ha hatékonyabb energiafelhasználású készülékekre térsz át, stb. Ott ezt elég komolyan veszik, és baromi nagy pénzeket lehet megtakarítani egy ilyen technológiával.

Az a kb. 25% különbség a CPU energiafelhasználásában van, a rendszer egészére nézve franc se tudja megmondani, hogy alakul (adj egy US T2-es CPU-val futó gépet, keresek valami hasonlót PC-ben és megmérem, persze majd ha lesz ilyen).

Ezen felül a fenti számolgatás -szerintem- hátrányba helyezi az inteles platformot (az a 170W erősen túlzó), illetve nem veszi figyelembe, hogy nincs olyan adatközpont, amelyben minden CPU full speeden pörög éjjel-nappal.

Az évi kb. 10 ezer forint különbség tehát:
- erősen sarkított, szerintem a Sun javára (az Intel TDP-je kapcsán írtak már mindent, viszont az érdekes, hogy ugyanennek a procinak a mobil verzióját kihozták 65 wattból, ill. még a 3 GHz-es is belefér a változatlan TDP-be)
- erősen worst case, mivel ritkán terhelnek egy procit 100%-ra
- minden érték hasalt, az is lehet, hogy semmi köze a valósághoz

a rendszer egészére nézve franc se tudja megmondani, hogy alakul
Hát lévén, hogy mind a 2 platform FB-DIMM-re épül, a CPU fogyasztása majdhogynem elhanyagolható a memóriához képest.
http://www.anandtech.com/IT/showdoc.aspx?i=3039&p=2
A 3. és 4. grafikont érdemes megfigyelni, magyarázat: az Opteron sima registered DDR2-t használ, az Intel viszont DDR2 FB-DIMM-et.

---
Sok gyerekkel ellentétben én sose akartam tűzoltó lenni. Lettem helyette informatikus. Nem találjátok ki, hogy mit csinálok nap mint nap...

Nyilván alkalmazása válogatja.
A T2-es teszt valószínűleg még korai, majd ha lesz hivatalos sunos gép belőle.

T1-eset viszont találhatsz:
http://www.anandtech.com/IT/showdoc.aspx?i=2772&p=8

De ha nekik nem hiszel, én is tudok neked ilyet prezentálni:
http://hup.hu/node/25442

A Sun azt mondja, hogy a T2 kétszer olyan gyors, mint a T1. A fenti tesztnél 1 GHz-es 8 magos T1-es volt egy 2 GHz-es dual 2 magos Xeonnal szemben és nagyjából azonos teljesítményt adtak, csak ugye a Xeon ezt a teljesítményt hamarabb képes leadni.

A T2 most legfeljebb 1,4 GHz-es lesz, változatlanul 8 maggal, viszont a tesztben lévő kezdeti Sossaman bohóckodásból már kilépett az Intel, volt némi hatékonyságnövelés és 3 GHz-es 4 magos CPU-nál tartanak.

Szerintem ha megismételném a tesztet, kb ugyanaz jönne ki:
egy négymagos Xeon nagyjából azt tudja (MySQL-ben), amit a T2

Cserébe négymagos Xeonból már ma tudok (olcsón) két CPU-s gépet építeni, T2-ből meg nem, na meg gyűlölöm azt a feelinget, mikor egy egyszálas alkalmazásnál egy Pentium 3 lassúságát kell élveznem...

UltraSPARC T2
"improved thread scheduling and instruction prefetching to achieve higher single-threaded performance"

Nevetséges amit T1 művel kevés szálnál. Egy szálnál is elvárnék pár ezer megát a nagy blokkos tesztben.

"* Integer throughput and throughput/watt (>2x improvement)", a fogyasztása T1 -nek is kedvezőnek volt titulálva.

Szerk:
Elkeztem olvasgatni T2 doksit és jóval nagyobb memóia átvitelt saccolnék, mint a T1 -nél a tesztedben, aztán észrevettem, hogy T1 nél is nagyobbank kéne lennie mértnél, bele néztem sysbench kódjában, hát közel sem az a kód legoptimálisabb memoria kezelésre. 32bit inteket használni egyetlen értékadó utassításal egy cikluson belül ilyen procin kis orajelnél elve rossz , PREFETCH utasítás nélkül még rosszabb, és ahogy néztem a T2 -nél sem látam, hogy olyamit prefetchelne amiröl nem sejti a már prefetchelt utasításokbol, hogy kellesz neki (Nem jön rá, hogy nagy blokk tesztben van :)). (glibc memcpy (ami gyakran még mindig nem legidálisabb), talán jobb ilyesmit mérni)

Sun UltraSPARC T1 >20Gbyte/s 4 on-chip memory controllers

Intel Xeon 6.4 Gbyte/s Requires an external chipset, shared bus

Intel Itanium 2 6.4 Gbyte/s Requires an external chipset, shared bus

AMD Opteron 6.4 Gbyte/s On-chip memory controller

A maximális sebességet meg sem közelíti sehol a grafikon.

Rendszer felépítését figyelembe véve 600 MB/s et saccoltam optimista módban 1 threadre ilyen kóddal. Ideális kódnál, meg 5000 körül is simán eltudnám képzelni .

régebben találtam egy oldalt, csak régen volt ... , akkor csináltak egy kisebb "tornyot" 20db PII-böl :)
mai procikkal elképzelve 20 olyan ... brutális lenne

Nekem mindig igazam van, ha nem, akkor nincs igazam, szoval megint igazam van hogy nincs igazam.
debian 4.0 - linux-2.6.22.1-pancs1-wifi1 - 2.6.22.1 kernel madwifivel itt

A kovetkezo idoszak az energiarol szol igy nagyon nem mindegy hogy egy gyakori eroforrasigenyes muveletet sw-ben vagy hw-ben (ill. hw tamogatassal) valositanak meg (pl.: crc, aes, stb). De a HDL oktatasaban is biztosan szerepet jatszik majd :)