Ma este a dmesg végén ilyet találtam, a logokban nem volt semmi extra...:
Machine check events logged
Feltettem az mcelog csomagot ami ezt adta ki:
MCE 0
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 2 4 northbridge TSC 4b6bcf49bbcc40
ADDR b12f4468
Northbridge Chipkill ECC error
Chipkill ECC syndrome = bf41
bit32 = err cpu0
bit46 = corrected ecc error
bus error 'local node origin, request didn't time out
generic read mem transaction
Ez milyen probléma? CPU, RAM, vagy micsoda?
Köszönöm!
- 2415 megtekintés
Hozzászólások
Memóriahiba, amit az ECC javított is.
Valószínűleg az egyik modul hibás.
- A hozzászóláshoz be kell jelentkezni
Hogyan tudhatnám meg hogy melyik modul az? Várjak még vele, vagy érdemes minél előbb cserélni? Mikortól van gáz... ha több bejegyzés kerül az mcelogba?
Köszi!
- A hozzászóláshoz be kell jelentkezni
"Hogyan tudhatnám meg hogy melyik modul az?"
Nem tudom, én Solarison találkoztam ilyen hibákkal, de ott a rendszer megmondta melyik modul a hibás.
Talán valami memória tesztelő program (memtest?) meg tudja mondani.
"Mikortól van gáz... ha több bejegyzés kerül az mcelogba?"
Gáz akkor van amikor az ECC már nem tudja kijavítani a hibát, és eltaknyol a kernel. :)
- A hozzászóláshoz be kell jelentkezni
Google-n szinte csak olyat találtam hogy fagyott is a rendszer akinek ilyen hibái voltak... gondolom akkor nem érdemes várni, cserélni minél előbb?
- A hozzászóláshoz be kell jelentkezni
Előbb-utóbb feldobja a talpát. Ha nem túl fontos a gép, akkor akár meg is várhatod :)
Hmm... azt hiszem, ez meg tudja mondani, hol a hiba:
http://www.memtest86.com
- A hozzászóláshoz be kell jelentkezni
Hát... sajnos fontos rendszer, remélem nem 24-én fog fagyni... köszi az infókat, mindenképpen erőltetni fogom a minél hamarabbi cserét. Más hiba egyébként nem lehet? Nehogy kicseréljük a memet, aztán teljesen máshol van a probléma, bár itt is a memória csere után oldódott meg a probléma:
http://www.linuxforums.org/forum/peripherals-hardware/71578-machine-che…
- A hozzászóláshoz be kell jelentkezni
Memtest nem árthat. Ha az hibát jelez...
- A hozzászóláshoz be kell jelentkezni
Nálam sima ECC-s RAM-okkal (nem ChipKill) voltak MCE (machine check exception) hibaüzenetek, de szerencsére nem fagyott a rendszer. Csak annyit loggolt, hogy az ECC miatt javításra került a hiba. Aztán cseréltem a memóriát és az alaplapot is egy upgrade során. Azóta természetesen jó.
Üdv,
Dw.
"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."
- A hozzászóláshoz be kell jelentkezni
Tehát elképzelhető hogy mivel ECC-s nem is fog fagyni?
- A hozzászóláshoz be kell jelentkezni
Kicseréltem benne a RAM-okat, igaz 4G helyett csak 2G-t tudtam beletenni... Most majd bedobom egy gépbe, és mehet nekik a memtest. :)
- A hozzászóláshoz be kell jelentkezni
>ADDR b12f4468
ez nem a memoria helyet jelenti?
- A hozzászóláshoz be kell jelentkezni
Végignyomtak a RAM-okon valami 5 órás tesztet ott ahol vásárolva lettek, és azt mondták semmi bajuk. Valami "inteles" programmal csinálták, és együtt a 4 modult. Most valami 16 órás tesztet is végigzavarnak rajtuk egy másik programmal. Hogyan kellene ezeket egyébként tesztelni hogy biztosan kiderüljön ha hibásak?
Mi van akkor ha azt mondják hogy a RAM-ok teljesen jók? Okozhatta más ezt a hibaüzenetet?
- A hozzászóláshoz be kell jelentkezni
egyenkent memtest-tel
512 esmodul mar 2-3 ora utan kiadta a hibat.
- A hozzászóláshoz be kell jelentkezni
Valami 19 órás vagy milyen teszten is átment a 4 modul együtt, szóval szerintük nem hibás... Teszteljem le én, vagy mit kéne kezdeni velük? :) Elképzelhető hogy valami más miatt dobta a hibát, és többet nem is jönne elő, vagy a gépben ugyanúgy tudná produkálni?
- A hozzászóláshoz be kell jelentkezni
Még mindig ugyan arról a gépről van szó, és RAM-okról amivel kapcsolatban nyitottam a topicot, a tényállás most az hogy a cég mint írtam visszaadta a RAMokat hogy szerintük teljesen jók, mert több teszten is átmentek, és biztos az alaplap hibás, próbáljuk meg hogy másik slotokba rakjuk... így történt, most 97 napot ment, míg újra elő nem jött a "Machine check events logged":
MCE 0
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 0 4 northbridge TSC 352efb644e7b53
ADDR 2def4460
Northbridge Chipkill ECC error
Chipkill ECC syndrome = 3d01
bit32 = err cpu0
bit46 = corrected ecc error
bus error 'local node origin, request didn't time out
generic read mem transaction
memory access, level generic'
STATUS 9400c0013d080813 MCGSTATUS 0
Az a kérdésem hogy létezhet az hogy valóban jók a RAM-ok, és az alaplap hibás amit ők állítottak, vagy inkább az lehet hogy nem elég körültekintően végezték a memtest-et?
Köszi!
- A hozzászóláshoz be kell jelentkezni
Nem létezik olyan, hogy "teljesn jó". Nincs olyan technológia ami 100% pontossággal működik. Kaphattál olyan RAM-ot, amiben valami nagyon kis hiba van (kellett is 97 nap mire előjött). Akármilyen memtest sem csinál mást, mint használja a memóriát, ha 97 napig hagynád futni, az is biztos megtalálja.
Ha ezt nem cseréli ki, akkor hagyd futni, lehet csak évek múlva lesz problémásan rossz. Akkor meg borítsd rájuk az asztalt, hogy pedig te megmondtad. :) Ha van rá mód, cserélgesd a modulokat egyenként másik gépben lévőre, azzal még a hibásat is meg lehet találni pár száz nap alatt.
--
The Net is indeed vast and infinite...
http://gablog.eu
- A hozzászóláshoz be kell jelentkezni
Ami érdekes, hogy amikor a régi slotba dobtuk vissza valamikor januárban, akkor 2 nap alatt jelentkezett a hiba. Ha rajtam múlna én már rég cseréltem volna, csak a vezetőség részéről ott van az hogy "de mi van ha még se a MEM-el van a baj?"...
- A hozzászóláshoz be kell jelentkezni
Ki tudod venni a RAM felét? (Swap legyen elég.) Aztán egyenként visszacserélni a kivetteket a bennlévőkkel. Ezzel is megtalálod.
--
The Net is indeed vast and infinite...
http://gablog.eu
- A hozzászóláshoz be kell jelentkezni
Végül is ez sem rossz ötlet, de sajna hosszabb ideig nem tudná nélkülözni a gép a 4G-t, bár dec23-án pont úgy oldottam meg, hogy volt még +2G ugyanilyen RAM-om egy másik gép bővítésére, és azokat tettem bele. Azokkal nem volt hibaüzenet, bár igaz csak 2 hónapot voltak benne összesen. De ha rátudnám venni a főnökséget hogy csak 2G-re ruházzanak be akkor indulhatna a "csere-bere", mert amit újonnan tennék bele valószínűleg nem azok dobnák a hibát, hanem a maradék kettő ami régebbről maradt benne. Viszont ők továbbra is elképzelhetőnek tartják hogy az alaplapon lévő memóriavezérlő hibája ez, mert egy 5 és 16 órás memtest sem jelzett hibát...
- A hozzászóláshoz be kell jelentkezni
Tesóm céges munkahelyi munkaállomásában az Intel alaplap miatt jöttek elő memóriahibák. Állítólag memória foglalat probléma volt.
Mondjuk ha nincs a tesóm és a memtest86+, akkor nem tudom hogy derült volna ki.
Üdv,
Dw.
"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."
- A hozzászóláshoz be kell jelentkezni