Asus P9D-X alaplap / Xeon E3-1200 / 32 G ECC RAM / centos6/
RAM hibát jelzett:
Jun 26 17:04:48 kvma kernel: {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Jun 26 17:04:48 kvma kernel: {4}[Hardware Error]: severity: 2, corrected
Jun 26 17:04:48 kvma kernel: {4}[Hardware Error]: section_type: memory error
Jun 26 17:04:48 kvma kernel: {4}[Hardware Error]: error_type: 2, single-bit ECC
Kivettem 2 modult, most 16 van benne és ilyen hibák:
Jun 30 08:25:04 kvma kernel: [Hardware Error]: Machine check events logged
#cat /var/log/mcelog
Hardware event. This is not a software error.
MCE 0
CPU 1 BANK 0
TIME 1404109504 Mon Jun 30 08:25:04 2014
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 2 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
A gép megy, de jó lenne utána járni.
Volt valakinek hasonló problémája? Lehet, hogy processzor hiba?
- 7759 megtekintés
Hozzászólások
Az alaplapot miért zártad ki?
- A hozzászóláshoz be kell jelentkezni
Másik két modullal is ezt csinálja?
- A hozzászóláshoz be kell jelentkezni
Ahogy írták modulonként próbáld le, addig semmi se biztos. Az alaplapon a legújabb fw/bios van? A alaplap vagy memória gyártó által megadott kompatibilis modulok mennek a lapban? (Tudom, hogy ez hülye kérdés, de még mindíg előfordulhatnak csodák ebben a roppant "egzakt" tudományban.)
- A hozzászóláshoz be kell jelentkezni
most nézem, hogy az L betű hiányzik a RAM megnevezéséből. Lehet, hogy ez okozza. KVR16EL11 kellene ez pedig KVR16E11.
Ez 1.425 ~1.575 voltos, és 1.35 kellene. Gáz.
- A hozzászóláshoz be kell jelentkezni
A low-power memória mellett a simát is támogatnia kéne...
- A hozzászóláshoz be kell jelentkezni
Memóriafeszültségét nem tudod 1.425 vagy fölé tolni a BIOSban?
- A hozzászóláshoz be kell jelentkezni
Kingston szerint: http://www.kingston.com/en/memory/search/Default.aspx?DeviceType=7&Mfr=…
Szóval a normál memóval nem lehetne gond. A többi kérdésem?:)
- A hozzászóláshoz be kell jelentkezni
kösz a linket. Érdekes. Az asus oldalán a támogatott memóriák listájában csak "Low Power 1.35V" kingstonok vannak.
A biosban semmilyen tuning dolog nincs, csak Frequency Limiter: Auto/1333/1600.
Frissítettem a biost a hideg tartalék alaplapon és a kivett két RAM modullal összeraktam egy gépet. Ebben csak i3 proci van. Az is kölcsön. Megpróbálom tesztelni ezt.
- A hozzászóláshoz be kell jelentkezni
A Kingston sokszor hajlamos chipset/processzor alapján megadni a kompatibilitást ezekhez, mert ezek nem a típusazonos memók, hanem a "simák".
Az i3-al nem lesz ECC support. :)
- A hozzászóláshoz be kell jelentkezni
nem? http://ark.intel.com/products/77480/Intel-Core-i3-4130-Processor-3M-Cac…
ECC Memory Supported ‡ Yes
- A hozzászóláshoz be kell jelentkezni
E3, nem i3.
- A hozzászóláshoz be kell jelentkezni
Hajaj. E3-as Xeon van az éles gépben és a coldspare-ben i3-as Core proci. :)
- A hozzászóláshoz be kell jelentkezni
Csak az alaplapból van coldspare. Az i3-as kölcsön van.
- A hozzászóláshoz be kell jelentkezni
Az edac-util elvileg meg tudja mondani, hogy melyik ecc-s modul a hibás.
- A hozzászóláshoz be kell jelentkezni
köszi, ez jó lenne, de úgy tűnik ez a lapot nem támogatja:
[root@kvmc ~]# edac-util -s
edac-util: Fatal: Unable to get EDAC data: Unable to find EDAC data in sysfs
- A hozzászóláshoz be kell jelentkezni
A megfelelő kernel modul be van hozzá töltve?
- A hozzászóláshoz be kell jelentkezni
a
# dmidecode -d /dev/mem
is érdekes dolgokat ír a System Event Log-ból:
Area Length: 0 bytes
Header Start Offset: 0x0000
Header Length: 16 bytes
Data Start Offset: 0x0010
Access Method: Memory-mapped physical 32-bit address
Access Address: 0xFFC80000
Status: Valid, Not Full
Change Token: 0x00000001
Header Format: Type 1
Supported Log Type Descriptors: 26
Descriptor 1: Single-bit ECC memory error
Data Format 1: Multiple-event handle
Descriptor 2: Multi-bit ECC memory error
Data Format 2: Multiple-event handle
A másik gépen visszavettem 1333-ra a sebességet, biost frissítettem és i3 proci van a Xeon helyett és semmilyen hibaüzenetet nem ad.
Persze, ez így nem jelent semmit. Holnap cserélni kezdem a RAM modulokat köztük.
Egyébként igen fürge az i3 is. A Xeon(R) CPU E3-1240 v3 @ 3.40GHz a
# time echo "scale=5000; 4*a(1)" | bc -l -q ; cat /proc/cpuinfo | grep -e '\(model name\|bogomips\|MHz\)'; cat /proc/meminfo | grep MemTotal
parancsot 0m15.729s alatt, az i3-4130 CPU @ 3.40GHz pedig 0m17.246s számolja ki.
- A hozzászóláshoz be kell jelentkezni
Ma végre sikerült megcserélni a két processzort és a hibaüzenetek ugyanazon a gépen jelennek meg. Most úgy tűnik, hogy mégis RAM vagy alaplap:
Hardware event. This is not a software error.
MCE 0
CPU 1 BANK 0
TIME 1405198434 Sat Jul 12 22:53:54 2014
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c07 APICID 2 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
Érdekes, hogy a légkondi beszerelése után sokkal gyakoribb lett a hibaüzenet. Július 11.-ig összesen 5, 11-12 31-szer jelent meg a fenti hiba. Nem szereti a RAM (alaplap?) a hideget?
- A hozzászóláshoz be kell jelentkezni
lol, nagyon hozzaerto konkluzio!
- A hozzászóláshoz be kell jelentkezni
Elektronikai cuccokkal foglalkozó boltban találsz "circuit freeze spray"-t.
A gond az, hogy elég nagy felületed van, illetve a baj nem állandó.
- A hozzászóláshoz be kell jelentkezni