Miféle hardverhiba lehet ez?
Nagyon fura dolgot kezdtem tapasztalni az asztali gépemen.
A konfig főbb elemei:
- ASUS TUF B550M-PLUS deszka,
- Ryzen 5700G CPU,
- Kingstron 3600-as RAM-ok, 2x16G,
- MSI 1050 Ti,
- meg egy minőségibb Seasonic tápegység.
Először elkezdtek időnként böngésző tab-ok meghalni. Persze az ember egyből szoftverhibára gyanakszik. dmesg-et vizsgálva elég gyakran segfault a libxul.so-ban.... na mi lehet.
Ilyen hibát azért okozhat memória hiba is, de a memtest86+ hiba nélkül lefut (erről később).
Aztán elkezdtek ezek a fagyások gyakoribbá válni, és a böngészőn kívül is jelentkezni. A másik amire ilyenkor gondol az ember a "csodás" nvidia driver... hát akkor tiltsuk le a FF-ban a hardver gyorsítást. Ugyanaz. Vegyük ki a videókarit, használjuk az integráltat. Ugyanaz. Állítsunk vissza minden setup beállítást default-ra. Ugyanaz.
Meg azért gyanús, hogy a probléma nem csak linux, hanem windows alatt is elő-elő fordulgat. De egyelőre csak napi egy-két alkalommal.
Különféle stressz tesztek, mint memtest, stress lefutnak, nem dobnak hibát.
De ezek a fagyások egyre gyakoribbá kezdenek válni. Már két-három percenként meghal egy-egy tab. Akár FF, akár Chrome. Böngésző frissítés után itt kezdtem el komolyabb HW hibára gyanakodni.
Jobban vizsgálva a dmesg-et, a segfault-ok mellett page fault-ok is megjelennek.
Akkor egy hosszabb memtest86+-t elindítok, otthagyom. Nap közben hív az asszony, kérdem nézzen már rá, hogy vannak-e piros sorok. Vannak.
Akkor mégis RAM? Már rendelem is az új RAM-ot, de aztán hazaérek, és jobban megvizsgálva a kimenetet: most SMP módban indítottam a memtest86+-t, ami így CSAK a 7-es teszten, CSAK az egyik magra dob hibát.
Érdekes. Utánolvasva, ez egy ismert hiba:
https://superuser.com/questions/514891/memtest-is-returning-large-numbe…
Tehát akkor a RAM mégis rendben?
Mindenesetre elindultam ezen a szálon, indítottam egy sysresccd-t, és a stress parancsot most nem a -c, hanem a -m opcióval indítottam. Ez memóriát foglal/szabadít fel, meg bele is ír, hogy ténylegesen megtörténjen az allokáció.
Na és ez "bejött"! Legalábbis úgy, hogy ez aztán kifekteti a gépet, elkezdenek dőlni a kernel hibaüzenetek.
Mi ez? Broken MMU? Hogyan? Mitől? A gép nem volt agyonhajtva, nem volt húzva, csak ami BIOS alapbeállítás (PBO, XMP).
Még egy tesztet csinátam. Ha már a memtest-nél is az SMP-vel volt baj, akkor elindítom a linuxot is SMP nélkül. Így működik is, nem dob hibát. Tehát úgy tűnik, hogy egy core-ban lehet csak hiba. (ezek szerint MMU is core-onként lehet?)
Próbáltam még a RAM-okkal is azért persze sakkozni, átteni másik slot-ba, meg csak egy modult használni. Érdekes módon utóbbi esetben mintha még gyakrabban jelentkeznének a hibák. Windows már be sem tölt így, linux még-még eldöcög, de hibákat dob.
Viszont mielőtt beledobnék egy új CPU-t, azért szeretnék róla meggyőződni, hogy nem az alaplap vágta haza a procit. Ami gyanús lett nekem egy kicsit, hogy a setup-ban a CPU core fesz alapból 1.44V. Nem sok ez?
És az a vicc, hogy a világon nem bírom megtalálni, hogy ennek a processzornak mi lehet a normális Vcore feszültsége. A Vsoc 0.8 körül van, az szerintem rendben, de a Vcore-nak kicsit soknak tűnik az 1.44. Ez az auto beállítás, hibát, warningot nem ír rá ki.
Mondjuk a gép ilyenkor ha jól tudom max. CPU feszültséggel indul, majd ha az OS elindult, akkor veszi csak vissza. Másik kérdés: mennyire lehet megbízni a feszültségmérésben? Ezeknél az alaplapoknál a szabályozás a mérésre történik, mert akkor a fene megette az egészet: ha a mérés elromlik, akkor a szabályozás is elromlik.
Egyetlen hasonló hibát tudtam a neten fellelni:
https://forums.anandtech.com/threads/i-have-lost-2-x-5600g-in-a-span-of…
Ott 5600g, probléma hasonló, "valami" meghalt a CPU-ban, csak ott a videó kimenet. Ugyanúgy B550 chipset, csak 5600g.
Vélemények? Találkozott valaki hasonlóval? Merjek bele másik CPU-t tenni?
- Tovább (Miféle hardverhiba lehet ez?)