Újabb AMD (Opteron) FPU bug

Címkék

Tegnap egy (vélhetően) újabb AMD Opteron processzorokat érintő FPU bugot jelentettek be. Ennek a bugnak - eltérően a pár hete bejelentettől - nem biztonsági, hanem adatsérülés kockázata lehet. A RegHardware egyik cikke szerint az AMD tegnap beismerte, hogy kiadott néhány olyan 2.6 és 2.8 GHz-en működő, egymagos, x52 és x54 jelű Opteron processzort, amely extrém körülmények között adatsérülést okozhat.

Úgy gondolják, hogy a hiba a processzorok FPU-jában idézhető elő akkor, amikor azok ciklikusan memória lekérdezések sorozatait, szorzást és egyéb más műveleteket végeznek anélkül, hogy bármilyen állapotellenőrzést végeznének a számítások eredményein. Ha a ciklus megfelelő hosszan fut, akkor az elengendő lehet arra, hogy helyi melegedést okozzon a processzor bizonyos részén, ami magas környezeti hőmérséklet esetén adatsérülést okozhat.

A hiba kiváltásához több milliószor kell a ciklusnak futnia, feltehetően órákig anélkül, hogy más feladatot végezne a CPU. Egyes források szerint az AMD megvizsgálta a problémát, és azt állítja, hogy csak bizonyos szintetikus benchmark-ok futtatása során kell a hibával számolni.

Úgy hiszik, hogy a probléma csak processzorok kis részét - mintegy 3 000 darab - érinti. Ezek átcsúszhattak az AMD tesztjein. Azt nem tudni pontosan, hogy ez mikor történhetett, de úgy gondolják, hogy valamikor "2005 végén és 2006 elején" lehetett.

Az AMD azt ígérte, hogy további teszteket vezetnek be annak érdekében, hogy "elkaphassák" a további hibás termékeket. Azokat a chip-eket, amelyek fennakadnak a teszten, alacsonyabb órajelűre szitázzák. A cég együttműködik az OEM partnerekkel és kapcsolatba lépnek azokkal az ügyfelekkel, akiknél hibás CPU lehet. Ha van ilyen, akkor azokat a CPU-kat cserélik.

Az AMD kiemelte, hogy a hibát három speciális tényező együttes megléte okozza, és nem az Opteron architektúra hibájáról van szó. Azt állítják, hogy a hiba nem figyelhető meg olyan rendszereken, amelyek kereskedelmi programokat futtatnak.

A cég várhatóan kiad majd egy olyan eszközt, amellyel be lehet azonosítani a szóban forgó CPU-kat.

A cikk itt.

Hozzászólások

"Az AMD kiemelte, hogy a hibát három speciális tényező együttes megléte okozza"

piaci verseny, túlszámozás, Q&A hiánya?

:-)

--
trey @ gépház

Mindenki óvakodjon az FPU szintetikus benckmarkok órákig tartó futtatásától, mert lehet, hogy rossz eredményt számol ki a teszt, amelyet ugyan nem használ semmire, hisz az a lényeg, hogy mennyi idő alatt fut le. ;P

Ez így mulatságos, de nem ez a lényege. Ne a processzorgyártó szabályozza már be, hogy mire lehet a CPU-t használni. Vagy ha igen, akkor írja rá a dobozra, hogy "Do not use for very long cycles!".

Én attól félek, hogy megérezte az AMD a "vérszagot", és a teljesíteni akarás a piac felé a minőség rovására mehet.

--
trey @ gépház

Igaz, de ez a real-life alkalmazásoknál soha életben nem jön elő, szerintem.
Ugye egy multi-taszkos operációs rendszernél eleve van context switching, amely már meg-meg szakítja az adott FPU terhelő ciklust, így meg valószínűleg már nem jön elő a probléma. Persze biztos vannak speciális esetek ahol felmerülhet, hogy problémás lehet (pl. real-time oprendszeren futó, speciális kutatási programok), de ezeknél se nagyon tudom elképzelni, hogy előjön, hisz ott is kell legyen néha 1-1 ellenőrzés, aritmetikai, logikai művelet, akármi...

Igen, csak ilyen spéci szigetelő alkatrészeket nem használnak processzorokban, mert asszem be lehetne szorozni még egy drága szerverprocesszor árát is 10-zel, ha lennének.
Csak úgy véletlenül nem találkozni magas hőmérsékleten szupravezető anyagokkal, ugyanis idáig össz-vissz 2 ilyen anyag ismert és elég macerás előállítani őket. Igen, ha valamihez a nitrogén forrási hőmérséklete (-196 C) elég, hogy szupravezető legyen, akkor az "magas" hőmérsékletű szuprevezető. A "közönséges" szupravezetőkhöz bizony folyékony hélium kell.
http://en.wikipedia.org/wiki/High_temperature_superconductivity

---
Apparently the human mind is not unlike cookie dough.

Az évek alatt ezt a viccet elég sok féle verzióban hallottam. :D
Egyébként nem csodálkoznék, hogy ha kiderülne az Intel szellőztette meg ezt az infót, tekintve, hogy az AMD erőteljesen lecsípett a piaci részesedéséből és valahogy meg kell rémiszteni a mangaembereket, hogy komoly feladatra továbbra is inkább Intelt válasszanak. :P

Ez úgy van, hogy két szám akkor egyenlő, ha a különbségük 0.
pl 1-0.9999999*=0 ,mert nem tudsz olyan számot mondani ami a kettő között van.
0,0000000*1 Ezt a számfelírási módot meg nem értem. Mert vagy ciklikus a végén valami számsor, vagy az utolsó szám ismétlődik. De olyan nincs, hogy az utolsó előttiből végtelen van, ui. akkor az utolsóra soha nem kerül sor.

szerintem nem, pl. a fenti hozzászólásban sem kellett végtelen sok kilencest leírni ahhoz hogy az illető "átadja" nekünk a számot.
Elég ha valahogy jelöli a gép hogy végtelen szakaszos tizedes törtről van szó. Csak az irracionális számok pontos átadásához kellene végtelen sok idő mivel azok nem ismétlődnek.

Szerintem az intel van a dolog mögött. Bizonyítaniuk kell a befektetők felé, hogy teljesen urai a helyzetnek és a piacnak. Lehet, hogy már rég tudnak a hibáról, csak nem árulták el!

De van egy másik tippem: az opteronok bekerültek a tudományos életbe is, nagy számítóközpontokba és előfordulhat, hogy tényleg kaptak a procik valami extrém feladatot, vagy egy extrém tesztelést.

Én arra szavazok, hogy derüljenek ki a hibák és a jövőben ne ismétlődjenek meg. Az AMD meg akkor jöjjön ki jól, ha jót csinál, intel úgyszintén. Nem a márkanév miatt szeretem az amd procikat, tehát ha nem húznak bele, hogy a jövőben ne vétsenek, akkor egy vásárlóval kevesebbet számlálhatnak! Most jól megmondtam nekik! ;-)
Na, abbafejezem a flémet!

Hat ez eleg szegyenletes, hogy az AMD ipari szinten kritikus felhasznalasra adja a CPU-jat es csak a verseny miatt trehanykodik.
Nemhiaba olcso es szanalmas termekvonal. Lehet gyors (kb 10 percig)
de az ilyenek miatt ne varjak hogy megvegyem clusterbe, serverbe, munkallomasba...
Trey szerintem meg az is szanalmas hogy nem latod be hogy szarra gyujtesz, meg le is akarod huzni az intelt.
Es nem ez az egyetlen AMD-s bug, ezt se felejtsuk el.

"Trey szerintem meg az is szanalmas hogy nem latod be hogy szarra gyujtesz, meg le is akarod huzni az intelt."

Nice try ;-), but...

Aki ismer, az tudja, hogy nálam nagyobb Intel pártoló kevés van. Házi feladat: olvasgass egy kicsit a blogomban. Kezdd el mindjárt itt (segítek: a magyarországi 5 Intel Premier Member közül az egyik cég vagyok, konkrétan én vagyok az az ember, aki cégnél a kapcsolatot tartja az Intel-lel, ami azt jelenti, hogy elég gyakran ülök magasszintű (hazai és külföldi) Intel exec-ekkel egy asztalnál). Itt véget is érhetne a dolog, de hogy lásd, hogy mi az ábra:

Az egyik ok amiért AMD gépre gyűjtök, hogy ne érkezzen támadás, hogy "azért Intel, mert trey-t megvette az Intel". De ezek után nem vártam volna azt, hogy megkapom, hogy Intel-ellenes vagyok. ;-)))

LoLmaoo. Pont attól a bandától, akinek egyik tagja pár évvel ezelőtt még Intel bérencnek nevezett.

Kijelentem: felbérelt az egész világ!!!!1111

(PS: a másik ok az, hogy már egy ideje van amd64 szerverem, köszi jól működik, ezért nem látom okát, hogy miért ne lehetne az új szerver AMD processzoros is akár.)

;-)

"meg le is akarod huzni az intelt."

Ez külön megér egy sort :-DD Most az Intel-t akarom lehúzni vagy az AMD-t. FYI: ez a cikk az AMD-ről szól és annak a hibájáról. :-)))

"Es nem ez az egyetlen AMD-s bug, ezt se felejtsuk el."

És valószínűleg nem is az utolsó. És mi következik ebből?

(Tudom: YHBT, HTH, stb. - Uncsi :-)

PS: le akarom húzni az egész világooooot !!!111

:-)

--
trey @ gépház