MCE - Machine Check Error

Fórumok

Sziasztok!

Mostanában, azaz ~ 2-3 hónapja ütötte fel ez a hiba nálam magát:

 

09-23:
[    0.538478] integrity: Machine keyring initialized
[    1.285037] mce: [Hardware Error]: Machine check events logged
[    1.285039] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 4: b600000000070f0f

10-05:
[    1.270742] mce: [Hardware Error]: Machine check events logged
[    1.270745] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 4: b600000000070f0f
[    1.270772] mce: [Hardware Error]: TSC 0 ADDR ff606ea0 
[    1.270787] mce: [Hardware Error]: PROCESSOR 2:610f01 TIME 1696597220 SOCKET 0 APIC 0 microcode 6001119

10-23:
[    1.326761] mce: [Hardware Error]: Machine check events logged
[    1.326763] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 4: b600000000070f0f
[    1.326790] mce: [Hardware Error]: TSC 0 ADDR ff60c114 
[    1.326807] mce: [Hardware Error]: PROCESSOR 2:610f01 TIME 1698045933 SOCKET 0 APIC 0 microcode 6001119

 

Szerintetek memória hiba van a háttérben,vagy valami más? Úgy olvastam a fórumokon, hogy hardver hiba...

A RAM-ok 1666-osok lennének de 1333-on járatom őket. a 4 GB-os a kezdetektől a +8 Gb-os meg amikor megvettem azóta.

Plusz amikor bekövetkezik ez a hiba, akkor kifagy a gép és újraindul. Windows 10 22H2 alatt meg sima reboot és kernel-power hibára hivatkozik a log.

 

Gépem egy 2013-ban vásárolt FM2A75PRO4-m Asrock lap, CPU egy A8-5600K, 8 GB ramot meg kb 2 és fél éve vettem bele.

Kb 4,5 évet állt a gép 2016-2021 között, ritkán volt használva, majd amikor úgy alakult akkor bővítettem '21-ben  +8 GB rammal.

Egyéb infók:

BIOS Information
    Vendor: American Megatrends Inc.
    Version: P2.60
    Release Date: 07/11/2013

 

sudo dmidecode --type 17

 

Handle 0x000B, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0009
    Error Information Handle: Not Provided
    Total Width: 64 bits
    Data Width: 64 bits
    Size: 4 GB
    Form Factor: DIMM
    Set: None
    Locator: A1_DIMM0
    Bank Locator: A1_BANK0
    Type: DDR3
    Type Detail: Synchronous Unbuffered (Unregistered)
    Speed: 667 MT/s
    Manufacturer: Kingmax         
    Serial Number: 00000000  
    Asset Tag: A1_AssetTagNum0
    Part Number: FLGF65F-C8KLB     
    Rank: 2
    Configured Memory Speed: 1280 MT/s

 

Handle 0x000F, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0009
    Error Information Handle: Not Provided
    Total Width: 64 bits
    Data Width: 64 bits
    Size: 8 GB
    Form Factor: DIMM
    Set: None
    Locator: A1_DIMM2
    Bank Locator: A1_BANK2
    Type: DDR3
    Type Detail: Synchronous Unbuffered (Unregistered)
    Speed: 800 MT/s
    Manufacturer: Undefined       
    Serial Number: 00000000  
    Asset Tag: A1_AssetTagNum2
    Part Number: DCLT8GN128S       
    Rank: 2
    Configured Memory Speed: Unknown
 

 

 

Hozzászólások

Elsőre 1 RAM modullal kéne megnézned, és a BIOS-ban, hogy rendesen be van-e állítva a sebesség. A dmidecode szerint a két modult nem teljesen sikerült szinkronba hozni. Ha 1 modullal jó, akkor a másik modullal is önmagában. Érdemes a BIOS-t megnézni, hátha van frissebb, mert rendszeres volt az "added RAM compatibility" és a "stability fixes" minden gyártónál.

Nézegettem a gyártó oldalát, de ott a következő BIOS van:

2.60 2013/7/23 4.90MB Instant Flash

Change Internet Flash server

Erre frissítettem legutóbb a BIOS-t.

A BIOS-ban eddig automatán volt a DRAM beállítás, így kézzel áttettem DDR3-1333-ra.

Ugyan így lefuttatva a dmidecode parancsot ugyan azt az eredményt adta, mint ami a nyitópostban van, hogy a modul sebesség ismeretlen... 

Szerencsére ritkáncsinálja, látszik is a dátumokból.

Azt nézem, hogy a JEDEC az XPM 1600-as beállítást mindkét modul tudná, így lehet hogy érdemesebb lenne beállítani a BIOS-ban az 1600 Mhz-es beállítást beállítani mindkét modulra, mert az időzítések mind eltérnek a többi profilban...

 

http://img4.imagetitan.com/img.php?image=26_2023-10-23080720.png

Machine-Check Exception Feature

For more information on this topic, refer to chapter 15.1: MACHINE-CHECK ARCHITECTURE in the Intel® 64 and IA-32 Architectures Software Developer’s Manual Combined Volumes: 1, 2A, 2B, 2C, 2D, 3A, 3B, 3C, 3D, and 4.

A ffenti lightweight 5072 oldalas dokumentációból sem fogsz megtudni semmit. :-D Legalábbis a kiírt hiba alapján. ;)

Ilyen esetben elvárható lenne, hogy hardware error esetén írd már ki mi fáj! Valamint tartozik hozzá egy sokatmondó eror code és netalántán hacsaknem valamely érthető szöveges leírás.

Ebben az esetben úgy jártál, mint a fiam, akinek kiírta a Windows: Hiba történt. (OK)

- Milyen hiba?

- Hülye vagy! Ez vindóz! Semmi közöd hozzá!

Bár egyszerűbb agyjárásúakban felmerülhet a kérdés -Akkor meg mi a faszé' írta ki?

A Machine Check Exception rövid szöveges magyarázata: A CPU a bal kezével folytatott beszélgetés során zavart érzett az erőben, felsóhajtott é a nyafit veled is közölte.

Ha egyébként nincs kékhalál, fekete halál és a piros hal sem téblábol, valamint a szerkezet stabil és nem indulgat újra, akkor ezt a hibát lehet pontleszarni.

Érdekes hiba, de ennyi idősen alaplaptól kezdve bármi lehet. Kondikat megnézni az alaplapon esetleg CPU mikrocode frissítés, ha lehetséges. Memória modulokat egyesével tesztelni, ahogy már írták korábban.

A memória összeállítás nem a legjobb sajnos. Általában azonos tulajdonságú és méretű RAM modulokat szoktak összerakni. A konfigurációban két teljesen különböző modul van jó eséllyel egymással akár párba téve. Ez nem célszerű eröltetni, inkább az alaplap leírást megnézni, hogy mindkét modul kompatibilis-e az alaplappal és ha igen, akkor milyen slotokba javasolja a különböző modulok beszerelését.  pl. a dual channel miatt nem biztos ha ez a két modul össze van rakva.

Fel lehet tenni néhány egyszerű kérdést azt feltételezve, hogy előtte ez a konfig hibátlanul működött.

Például " mi változott? "

Szoftveres és hardveres oldalon egyaránt. Például az új BIOS verzió lehet rosszabb, mint az előző. Vagy új OS lett a gépen. Vagy új hardver került bele vagy épp cserélve lett.

Ezen felül lehet szimplán elöregedtek az alkatrészek és megérett egy nagy javításra/cserére.

A kondik szilárd elektrolitosak, bár tudom ezek is meg tudnak hibásodni. CPU mikrokód az a rendszer indításakor automatikusan betötődik a kernel után.

Szerintem is az lesz, hogy egyelőre marad 1333-on a két modul, ha így is produkálja a hibát átrakom másik soltba és megszüntetem a dual-channel üzemmódot.

Alaplap leírásban a kingmax modul még szerepel a komatibilitási listában a másik modul nem szerepel, tehát a működés nem garantált így.

Szoftveresen sokminden változott, mert 2015 óta megy rajta  GNU/Linux és windows 8.1-10 is. 

Amit elnézegettem az újabb BIOS-okban csak a frissítési szerver változott, minden más maradt az eredeti.

Amúgy ha ezek se segítenek, akkor nézek a gépbe majd másik modulokat, a mostaniakat meg elrakom, de ez lesz a legutolsó megoldás,

köszönöm a tippeket.

Nem ennyire egyértelműek ezek a dolgok. Van egy 10 éves bármilyen elektronikai eszközöd, ott már a forrasztások, a nyákrétegek, és minden ilyen dologgal lehet probléma, egy ennél jóval banálisabb sw issue-tól kezdve.

A CPU mikrokódot tudod OS oldalról is betölteni, nem csak a BIOS oldaláról.

Simán el tudom képzelni, hogy ha XMP 1600-as profilra állítod, akkor akár még javulhat is. A kompatibilitási listából hiába hiányzik egy RAM típus, szerencsére a DDR3 óta jóval kevésbé hisztériásak a memória vezérlők. Aki már szívott FB-DIMM-mel, DDR1 Reg. ECC támogatással, az tudja miről szólt ez régebben, hogy az EDO és SD RAM-os dolgokról ne is beszéljünk. :)

Végigolvastam a szálat, ki is próbátam, hogy a radeon.dpm=1, bapm=1 paraméterrel indítom a rendszert, akkor fennáll-e a hiba, és továbbra is 3-4 perc után megfagy a rendszer és újraindul MCE Hardware Error hibával, aztán már többet aznap nem lesz ilyen hiba, csak az első indításnál fordul elő, akkor se minden nap, hanem majdnem random...

Most megpróbálom a bapm=0 paraméterrel használni a gépet...

 

(A vége szerintem lehet az lesz, hogy 4 GB-os modul ki és veszek egy ugyan olyan 8GB-os modult, mint ami benne van...)