hibás RAM? vagy CPU?

Fórumok

Asus P9D-X alaplap / Xeon E3-1200 / 32 G ECC RAM / centos6/
RAM hibát jelzett:
Jun 26 17:04:48 kvma kernel: {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Jun 26 17:04:48 kvma kernel: {4}[Hardware Error]: severity: 2, corrected
Jun 26 17:04:48 kvma kernel: {4}[Hardware Error]: section_type: memory error
Jun 26 17:04:48 kvma kernel: {4}[Hardware Error]: error_type: 2, single-bit ECC

Kivettem 2 modult, most 16 van benne és ilyen hibák:
Jun 30 08:25:04 kvma kernel: [Hardware Error]: Machine check events logged

#cat /var/log/mcelog
Hardware event. This is not a software error.
MCE 0
CPU 1 BANK 0
TIME 1404109504 Mon Jun 30 08:25:04 2014
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 2 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60

A gép megy, de jó lenne utána járni.
Volt valakinek hasonló problémája? Lehet, hogy processzor hiba?

Hozzászólások

Másik két modullal is ezt csinálja?

Ahogy írták modulonként próbáld le, addig semmi se biztos. Az alaplapon a legújabb fw/bios van? A alaplap vagy memória gyártó által megadott kompatibilis modulok mennek a lapban? (Tudom, hogy ez hülye kérdés, de még mindíg előfordulhatnak csodák ebben a roppant "egzakt" tudományban.)

kösz a linket. Érdekes. Az asus oldalán a támogatott memóriák listájában csak "Low Power 1.35V" kingstonok vannak.
A biosban semmilyen tuning dolog nincs, csak Frequency Limiter: Auto/1333/1600.
Frissítettem a biost a hideg tartalék alaplapon és a kivett két RAM modullal összeraktam egy gépet. Ebben csak i3 proci van. Az is kölcsön. Megpróbálom tesztelni ezt.

Az edac-util elvileg meg tudja mondani, hogy melyik ecc-s modul a hibás.

a
# dmidecode -d /dev/mem
is érdekes dolgokat ír a System Event Log-ból:

Area Length: 0 bytes
Header Start Offset: 0x0000
Header Length: 16 bytes
Data Start Offset: 0x0010
Access Method: Memory-mapped physical 32-bit address
Access Address: 0xFFC80000
Status: Valid, Not Full
Change Token: 0x00000001
Header Format: Type 1
Supported Log Type Descriptors: 26
Descriptor 1: Single-bit ECC memory error
Data Format 1: Multiple-event handle
Descriptor 2: Multi-bit ECC memory error
Data Format 2: Multiple-event handle

A másik gépen visszavettem 1333-ra a sebességet, biost frissítettem és i3 proci van a Xeon helyett és semmilyen hibaüzenetet nem ad.
Persze, ez így nem jelent semmit. Holnap cserélni kezdem a RAM modulokat köztük.
Egyébként igen fürge az i3 is. A Xeon(R) CPU E3-1240 v3 @ 3.40GHz a
# time echo "scale=5000; 4*a(1)" | bc -l -q ; cat /proc/cpuinfo | grep -e '\(model name\|bogomips\|MHz\)'; cat /proc/meminfo | grep MemTotal
parancsot 0m15.729s alatt, az i3-4130 CPU @ 3.40GHz pedig 0m17.246s számolja ki.

Ma végre sikerült megcserélni a két processzort és a hibaüzenetek ugyanazon a gépen jelennek meg. Most úgy tűnik, hogy mégis RAM vagy alaplap:
Hardware event. This is not a software error.
MCE 0
CPU 1 BANK 0
TIME 1405198434 Sat Jul 12 22:53:54 2014
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c07 APICID 2 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60

Érdekes, hogy a légkondi beszerelése után sokkal gyakoribb lett a hibaüzenet. Július 11.-ig összesen 5, 11-12 31-szer jelent meg a fenti hiba. Nem szereti a RAM (alaplap?) a hideget?