Volt dolgom egy különösen beteg típushibás szériával, amit egymás között úgy hívtunk, hogy a Micron "Feketememória". A nevét eredetileg a csúnya vastag fekete hűtőbordájáról kapta. Emlékeim szerint úgy kb 2 kg hibás példány jött össze belőle, az irodában volt aki űrállomás-modellt, volt aki adventi koszorút épített belőlük. Több racknyi IBM Blade volt telerakva velük, sajnos nem volt praktikus az összeset cserélni. Ráadásul DDR2 volt, sima reg ECC, nem FB-DIMM (ami akkoriban jellemző típus volt), a blade-ekbe ráadásul csak low-profile fért bele, ilyet eléggé aranyáron lehetett csak beszerezni. Teljesen összevissza hibajelenségeket produkált, volt hogy 1db modul képes volt a teljes szervert leölni (ezek az IBM blade-ek elvileg tudtak olyat, hogy az ECC hibás modult letiltották és annyival kevesebb memória volt a gépben) olyan szinten, hogy se kép se hang, bootolni sem tudott. Az onboard diagnosztika vagy semmit nem jelölt hibásnak, vagy az összes memóriamodult, de volt olyan is, hogy teljesen másik modulra jelezte a hibát, mint amelyik a hiba okozója volt. Volt, hogy egyesével kivéve és tesztelve az összes hibátlan volt. Volt, hogy 1 hétig futott a memtest rajta, hibátlanul. Utána leállít, visszaindít, már világít is a sárga led a szerveren, memóriahiba. Tipikusan leállások után kerültek elő mindig újabb hibás modulok random szerverekből.
Sokáig nem értettük. Aztán mikor az irodában hülyeségből építgettek a kollégák belőle mindenfélét, és megpróbálták leszedni néhányról a hűtőbordát, akkor jöttünk rá a hiba okára. A hűtőborda ragasztója sokkal erősebb volt a BGA forrasztásnál, ezért a legtöbb modulról simán lejött 1-2 IC a bordával együtt. A borda persze egy darab volt, nem volt szétvagdosva. Nyilván a hőtágulás szépen fokozatosan lefeszegette a szélső chipek forrasztását. Persze ha kézbevetted, kivetted, visszaraktad, kicsit megnyomkodtad, az pont elég volt ahhoz, hogy átmenetileg helyrejöjjön a kontakthiba, emiatt volt agyrém diagnosztizálni a hibás példányokat.
Szóval a BGA forrasztási probléma nálam egyértelműen a vezető hibaok. Minden más típusból csak nagyon szórványosan akadt 1-2 hibás darab, többnyire csak úgy, hogy az EDAC bejelzett, hogy permanens ECC error van. Desktopon is csak randomly 1-1 bithibás példányba futottam bele, ami persze azért elég idegesítő, mert ECC nélkül sokáig észrevétlenül tudja pusztítani az adatokat.