Mitől hullik el a RAM?

Van 1 gép, kb 5 éves, benne 2x 8GB Kingston DDR4 KIT. Emberke nyíg, h nem bútol a gépe. Kis tetriszezés után kitaláltuk, hogy a kit egyik fele elhulland.
Mi a ménkű romolhat el egy relatív minőségi, mozgó alkatrész nélküli félvezető bármin?

Hozzászólások

Szerkesztve: 2022. 08. 21., v – 15:19

Ez nem egyszerű téma, ahogy látom három tényezőről vitatkoznak a mai napig:
- Bias Temperature Instability (BTI)
- Hot Carrier Injection (HCI)

- Gate oxide breakdown (GOBD)

Ezeknek érdemes utánanézni.

[insert line here]
B.C. 3500 - DIY Vehicle / A.D. 30 - DIY Religion / A.D. 1991 - DIY OS

Szerkesztve: 2022. 08. 21., v – 15:23

Kingston memória szintén, egy szerverben ami az elmúlt 10 évben jó ha 6 hónapot ment (összesen). Egy hónapja kapcsoltam be, miután fél évvel korábban használtam 1 rövid pár órás időre. Eredmény: szintén nem ment benne az összes RAM. Mint kiderült, az egyik modul a 6 közül se szó se beszéd, megdöglött.

Lehet hogy hamarosan ki fog derülni, hogy az új gyártástechnológiák már nem tudják azt a kvázi végtelen élettartamot, amit a régiek tudtak?

Nekem évekkel ezelőtt volt olyan tapasztalatom (egy Core2Quad-hoz való, intel chipsetes alaplapban, DDR2 vagy DDR3, a ram márkájára nem emlékszem, arany színű eloxált alu tokja volt, valami gamer szarság, mert normális kártyákkal nem tudott a bolt olyat adni, ami elég gyors az alaplaphoz és a CPU-hoz, talán Kingmax vagy Kingston), hogy a feszültségeket be kellett játszani (nem a standard 1.8 V, hanem egy, a gyártó által megadott, elég széles intervallumban, a manual szerint a legalacsonyabbra, ahol már stabil), hogy évekig ment a cucc, aztán elkezdett hibázni, és újra be kellett játszani a feszültséget (egy kicsit még magasabbra). Utána még évekig ment hibátlanul, talán még most is megy, ha megvan valahol valakineg az a gép.

Gondolom az lehet az oka, hogy valami még diffundál a félvezetőben, ha elég meleg.

Bármitől dögölhet, melegedés, ócska tápfesz, szilikon öregedése (főleg, ha nem valami jó gyártástechnológiával készült, vagy rosszabb szériában gyártott chipekből áll). Akár még az is lehet, hogy nem is a RAM döglött meg, hanem az alaplap vagy a foglalat alatta, olyan is láttam már.

A Kingston egyébként sem valami minőségi márka sajnos. Legközelebb vegyetek kicsivel drágábbal valami nevesebb gyártótól, lehetőleg olyan kitet, amire vagy élettartam vagy sok év garancia van.

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

Corsair, Crucial. De felőlem lehet Kingston is, de akkor olyan kit, ami kifejezetten élettartam garanciás. Igen, ezek a kit-et drágábbak, de nem annyival, és később nincs meglepetés és anyagi bukó. A Kingston pár éve elkezdett szemeteket gyártani, RAM-ból is nem csak innen hallok meghibásodott darabokat, az SSD-ig meg kifejezetten tömegesen döglenek.

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

Ezzel szemben például szerverhez igen kevés modult kaptál ezektől a gyártóktól, bár ez talán a DDR4-es korszakkal változott. A tuningra chipválogató gyártó egy dolog, mert jókat csinálnak ők is, de azért a Kingstont RAM fronton lesajálni... na mind1. Van a környezetemben elég sok újabb Kingston modul és nincs velük gond, igaz a fenti gyártókkal sem, a RAM hiba az elmúlt pár évben már tényleg fehér holló kategória. Nem is nagyon emlékszem, hogy új modullal, bármilyen gyártmányból, volt-e gond, ha volt elhullás az régi modul volt.

Az SSD egy teljesen külön történet a Kingstonnál, az tényleg felejtős náluk.

Hát sajnos nekem nem a minöség jut eszembe a corsair ramokrol, felsöpolcos 64GB(4*16) os kitjükböl féléven belül megkotlott 2 modul. Ismeretségi körben is kb corsair az egyetlen ami kiemelkedik elhalalozasok terén. Emelett terjedt a neten, hogy ryzenek melet leginkább corsair dimmekel volt instabilitás.

Nekem jó tapasztalataim vannak vele (pont Ryzen mellett), és jókat is hallok róla más helyekről. Ennek ellenére hibás minden termékből van, a selejteket egy gyártó sem tudja 0-ra leszorítani, mindegy milyen alapos QC-jük van, nem tudnak minden egyes modult annyira alaposan tesztelni. Ezért van mindenre jótállás. Félre ne értsd, nem akarom a Corsairt fényezni, nem vagyok a marketingesük, de a Kingstonhoz képest mindenképp nagyobb a bizadalmam bennük. Biztos vagyok benne, hogy nem tökéletes gyártók ők sem, és a termékeik is itt-ott túlárazottak, nem mindig a legjobb ár-értékarányúak, stb..

Memóriából amúgy is láttam már mindenfélét megdögleni, Corsairt pont nem, de Samsung, Hynix, Kingmax, Kingston (egy HyperX kit volt, nem a topikbeli esetről van szó), stb., már mindent láttam.

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

Ha nálam valami hardveres RAM hiba bekövetkezett, a praxisomban csak és kizárólag a Samsungok hullottak. (Mondjuk 1 Kingston-ra, másra, - 10 "Samu" arányban.)

(Egyébként azért is jó a kérdésfeltevés, mert prociból, pl. életemben többszáz gépből, jó ha egy tönkremenetellel találkoztam. Pedig azért bonyolultabb, melegedésnek jobban kitett eszköznek tűnik...)

Már több dolgot írtak előttem, szóval lesz ismétlés, de az elmúlt 20-25 év tapasztalata alapján ilyesmik fordulnak elő, ha minden igaz akkor valószínüségi sorrendben:

- Tápegységre visszavezethető probléma, az UPS meglétét beleértve (azaz UPS hiányában gyakrabban láttunk memó halált), vagy maga a tápegység süti meg gyorsan vagy lassan a RAM valamilyen hibájából fakadóan.

- Nagyobb hőingásnak kitett gépek, illetve amik tartósan melegen üzemelnek, vagy rossz hűtés, vagy egyéb okból.

- Alaplap inkompatibilitás, ami hosszú idő alatt is odaverhet neki, vagy egész változatos hibákat produkál már egyből, de szerencsére ez a DDR3, és főleg a DDR4 óta nem jellemző.

- Gyári hiba (forrasztás, nyákon valamilyen huzalozás vastagsága stb), és a hibától függően nem biztos, hogy azonnal kijön a QA processen meg ugyan átment, de valszin épphogy.

Mindegyiket láttam legalább egyszer. Ha 5 év után hal ki egy napi sokórás használatban lévő modul, akkor már annyira nem lepődöm meg, de ha mondjuk 8-10+ év után, akkor "hátennyivoltkuka", és megyünk tovább. 10 év nem annyira veszedelmes, mert pl. egy 55xx/56xx Xeon-ból kijövő RAM-ok még az E-26xx v2-vel is mentek, és ugyan lassabbak, de 10+ 8G vagy 16G modult nem dobálunk ki. :) Ráadásul van ahol még 56xx Xeonok vannak üzemben, és hát mennek, bár most már sikerült elérni, hogy leszereljük őket végre.

Szerkesztve: 2022. 08. 22., h – 15:47

5 éves

Fürdőkádgörbe.

trey @ gépház

Szerkesztve: 2022. 08. 22., h – 15:55

Hűtőborda volt rajta? Ha nem akkor azért. Nálam csak azokkal volt eddig gond. A többivel nem, amíg használtam a gépeket. Az is Kingston volt.
Hűtőborda rulz. A meleg nem tesz nekik jót. Én most csak Patriot memóriákat használok mindenhol Kingston helyett. Eddig kop-kop. Minden jó.

Volt dolgom egy különösen beteg típushibás szériával, amit egymás között úgy hívtunk, hogy a Micron "Feketememória". A nevét eredetileg a csúnya vastag fekete hűtőbordájáról kapta. Emlékeim szerint úgy kb 2 kg hibás példány jött össze belőle, az irodában volt aki űrállomás-modellt, volt aki adventi koszorút épített belőlük. Több racknyi IBM Blade volt telerakva velük, sajnos nem volt praktikus az összeset cserélni. Ráadásul DDR2 volt, sima reg ECC, nem FB-DIMM (ami akkoriban jellemző típus volt), a blade-ekbe ráadásul csak low-profile fért bele, ilyet eléggé aranyáron lehetett csak beszerezni. Teljesen összevissza hibajelenségeket produkált, volt hogy 1db modul képes volt a teljes szervert leölni (ezek az IBM blade-ek elvileg tudtak olyat, hogy az ECC hibás modult letiltották és annyival kevesebb memória volt a gépben) olyan szinten, hogy se kép se hang, bootolni sem tudott. Az onboard diagnosztika vagy semmit nem jelölt hibásnak, vagy az összes memóriamodult, de volt olyan is, hogy teljesen másik modulra jelezte a hibát, mint amelyik a hiba okozója volt. Volt, hogy egyesével kivéve és tesztelve az összes hibátlan volt. Volt, hogy 1 hétig futott a memtest rajta, hibátlanul. Utána leállít, visszaindít, már világít is a sárga led a szerveren, memóriahiba. Tipikusan leállások után kerültek elő mindig újabb hibás modulok random szerverekből.

Sokáig nem értettük. Aztán mikor az irodában hülyeségből építgettek a kollégák belőle mindenfélét, és megpróbálták leszedni néhányról a hűtőbordát, akkor jöttünk rá a hiba okára. A hűtőborda ragasztója sokkal erősebb volt a BGA forrasztásnál, ezért a legtöbb modulról simán lejött 1-2 IC a bordával együtt. A borda persze egy darab volt, nem volt szétvagdosva. Nyilván a hőtágulás szépen fokozatosan lefeszegette a szélső chipek forrasztását. Persze ha kézbevetted, kivetted, visszaraktad, kicsit megnyomkodtad, az pont elég volt ahhoz, hogy átmenetileg helyrejöjjön a kontakthiba, emiatt volt agyrém diagnosztizálni a hibás példányokat.

Szóval a BGA forrasztási probléma nálam egyértelműen a vezető hibaok. Minden más típusból csak nagyon szórványosan akadt 1-2 hibás darab, többnyire csak úgy, hogy az EDAC bejelzett, hogy permanens ECC error van. Desktopon is csak randomly 1-1 bithibás példányba futottam bele, ami persze azért elég idegesítő, mert ECC nélkül sokáig észrevétlenül tudja pusztítani az adatokat.

Régóta vágyok én, az androidok mezonkincsére már!

Nem is feltétlen a BGA magában a probléma. El tud az lenni magában, ha békénhagyják. Viszont ha valamilyen mechanikus igénybevétel is éri, akkor szokott a BGA elfáradni. Mint a régi socket 775-ös prociknál a rémisztő alaplap-görbítő hűtőbora-felfogatásnál. Vagy a túl nagy és nagyon melegedő (sőt gyorsan melegedő-lehülő) IC-knél, mint tipikusan a GPU-k. Az a baj, hogy ezek sajnos élettartamra vannak méretezve. Ha a garanciaidőn belül várható hőciklusok száma még éppen kiadja a forrasztás várható anyagfáradási teherbírását, akkor a design megfelel, mehet gyártásba.

Ellenpéldaként eszembejut, hogy régen a képcsöves TV-k és monitorok világában hányszor voltak olyan típushibák, hogy a sorvégfok tranzisztor kifeszegette magát a nyákból. Pedig ott nem volt BGA. Viszont fixen rácsavarozták a tranzisztort a hűtőbordára, ami forrasztva volt a panelre, a hőtágulás meg tette a dolgát. Minimális tervezői odafigyeléssel (plusz pár centtel kevesebb fillérbaszással) elkerülhető lett volna.

Régóta vágyok én, az androidok mezonkincsére már!