Mágikus laptophiba

Egy ismerősöm gépe tegnap elkezdett furán viselkedni. Néha leáll, néha el sem indul, de van, hogy rendben megy minden.

Két képernyőfotóm van ilyen lehalt esetről, de érdemi információt egyiken sem találtam.

A logokban sem találtam nyomravezető információt, de két érdekesség feltűnt:

1 - gyakran a logban megtalálható utolsó értelmes sor, a wifivel vagy BT-szal kapcsolatos.

2 - a logokba a hiba alkalmával sok-sok 0x00 bájt kerül.

Mivel ext4 fájlrendszer van a gépen, gyanítom, hogy 0x00 csak akkor kerülhet a logba, ha a lemezkezelés hibás. A SMART szerint azonban minden rendben van.

Gyanakodtam a melegre is, de hidegen, első indításra is hibás volt ma.

Jelenleg nálam van a gép, nekem elsőre rögtön gond nélkül elindult, de a leállításba már belefagyott. Másodszorra újra elindult rendben, de az újraindításnál már hibákat dobott a rendszer. A logban továbbra sem találok érdemi információt.

Igazam van abban, hogy a logokba bekerült 0x00 bájtok miatt biztosan lemez vagy lemezvezérlő hiba? Vagy van valakinek valamilyen jobb ötlete?

Hozzászólások

Szerkesztve: 2021. 07. 05., h – 11:03

Memtest86 mit mond? Memoriarol mit kel ltudni, egy modul van vagy ketto? Azok azonosak?

Pendriverol bootolt os-el mukodik minden frankon?

Define: "néha el sem indul" mi tortenik ilyenkor pontosan?

A memória fizikai mikéntjét nem tudom, ez egy Lenovo Y50 laptop 8GB memóriával.

Mióta megírtam a postot, ment, de új hibát nem generált. Most leállítottam, hogy a memtestet indíthassam, de megint belefagyott. Az első hibaüzenetnek tűnő sora: "unable to handle kernel paging request at..."

Remélem, a memtest majd mond valamit, bár én már évtizedek óta nem találkoztam személyesen memóriahibával.

A memtest64 csomagot telepítettem. Boot menüben meg is jelenik, de sem a memtest64 sem a memtest64+ nem indul el. Marad a boot menü háttérképe, de teljesen üres, semmi felirat nincs rajta. ESC-re újraindul.

Amúgy, ha nem indul a rendszer, az pontosabban azt jelenti, hogy elindul a boot folyamat, de a kernel valamilyen hibával elszáll. Általában a sok-sok üzenet miatt a kiinduló hibaüzenet nem olvasható már, de mintha mindig ezzel az unable to handle kernel paging request üzenettel kezdődne a baj ... bár ez nem biztos.

Futtattam parancssorból memtestert, ami ugyan a teljes 8GB-ot nem tudta tesztelni, de 7-et igen, és ott nem talált problémát.

Most USB-ról indítva futtatom a memtest-et. Legalább elindult, és megy. Eddig nem talált hibát. Félek, mi lesz, ha nem is fog?

Mert való igaz, a 0x00 a logfájlban lehet akár memóriahiba is.

De ha nem lesz memóriagond, akkor én továbbra is azt gondolom, hogy a 0x00 a logfájlba csak lemezhibával kerülhet be. Valaki megerősítene vagy cáfolna ebben?

En hagynam futni a memtestet, fejezzen be 1-2 pass-t, mert ez tipikusan memoria problema.

Amugy meg, indits egy linuxot usb-rol majd badblocks-al mehet a moka, ez rair egy pattern-t majd visszaolvassa a lemezrol, majd ellenorzi. Mentes azert legyen ;)

Egyszer teljesen végigment a memtest. 0 hiba. Azt is megmutatta, hogy 2DB memóriamodul van a gépben a 4 foglalatban.

Mehetne még párszor, de a hiba ennél sokkal gyakoribb, tehát szerintem azért egy teljes teszt alatt kellett volna találnia valamit, ha RAM gond.

Akkor egyelőre nincs jobb tippem, mint a lemez.

USB-ről rendben elindult, de ugye ez még nem garancia. Még nyúzom egy picit, de pár óra múlva elviszik, addig kellene okosat mondanom.

4 foglalatban? ez biztos? mezei notikban elég ritka a 4 ramslot. Mi a pontos típusa a gépnek?

kompatibilis bt/wlan modult/kártya csere nem opció? biztos hogy parezer ft, es max 1 munkaora alatt kivitelezheto... meg kell nezni elotte a kompatibilitast, de ennyi..

Sütőbe az alaplapot :D

Ha más modulokkal is újra előjön, akkor valami BGA bibi.

Esetleg nem érte víz vagy kóla?

"értelmes sor, a wifivel vagy BT-szal"

BIOS-ba kapcsold ki ezeket és úgy próbáld.

Ezen a leáll-on mit kell érteni? Kikapcsol, vagy a rendszer fagy be rajta, vagy mi? Hőfokok, akkutöltés rendben van? Memtest mit mondott rá? Továbbá igen, lehet lemezvezérlő hibája is, ezt úgy lehet tesztelni, hogy USB-s külső meghajtóról futtattok rendszert, vagy Live-ot, vagy eleve USB-re telepített rendszert, és úgy tesztelni vele pár napig.

Az, hogy a SMART nem jelez hibát, az nem azt jelenti, hogy a háttértárnak vagy a lemezvezérlőnek nincs problémája.

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

1. Szétszedni, minden csatlakozót megpucolni, hátha kontakthiba. (memória, proci, sata, stb...)

2. memtest

3 háttértár teszt... pl. sudo dd if=/dev/sda of=/dev/null. Ha IO hibával megáll, akkor a merevlemez mehet a kukába.

Ha minden jó, de a hiba továbbra is elő-elő jön, akkor az már házilag nem javítható. Esetleg még meg lehet próbálni 32 bites oprendszerrel, hátha csak 64 bites módban killódik a proci.

-fs-
Az olyan tárgyakat, amik képesek az mc futtatására, munkaeszköznek nevezzük.

Nekem is fura hibákat produkál a laptop. Időnként teljesen eltűnik az SSD, I/O hibával, a gép elhal, a pingre még válaszol, de amúgy csak a power gomb segít. Volt, mikor kiírta hogy lehetséges adatvesztés történt, de főleg I/O hibát dob egy idő után. Erről nem tudtam képet készíteni de egy előzőről igen:

 

http://img4.imagetitan.com/img.php?image=24_20210522_223840_hdr1.jpg

 

Lefutattam az általad javasolt dd parancsot:

[jimmy@HP2530P-torrent-server ~]$  sudo dd if=/dev/sda of=/dev/null  status=progress

480002875904 bájt (480 GB, 447 GiB) másolva, 3708 s, 129 MB/s
937703088+0 beolvasott rekord
937703088+0 kiírt rekord
480103981056 bájt (480 GB, 447 GiB) másolva, 3708,76 s, 129 MB/s

 

Nem szállt el hibával szerencsére. 
 

Na, én ilyenkor rohantam a boltba kétségbeesetten SSD-ért, beraktam a gépbe az újat, a régit külső tokban ro mount-oltam, majd rsync -avxHASX forrás cél paranccsal file-osan másoltam az oprendszert, persze azok után, hogy az új SSD-t partícionáltam, formáztam. Utána a forrás SSD-t dd-vel végigírtam nullákkal, majd a szemetesbe helyeztem.

Azóta van itthon egy jó minőségű tartalék SSD-m.

tr '[:lower:]' '[:upper:]' <<<locsemege
LOCSEMEGE

Examining hard disk configuration ...

HDD Device  0: /dev/sda             
HDD Model ID : KINGSTON SA400S37480G
HDD Serial No: 50026B77825D5DA1
HDD Revision : SBFKB1C3
HDD Size     : 457863 MB
Interface    : S-ATA Gen3, 6 Gbps
Temperature  : 33 °C
Highest Temp.: 45 °C
Health       : 98 %
Performance  : 100 %
Power on time: 238 days, 7 hours
Est. lifetime: more than 1000 days
Total written: 3.83 TB
  The status of the solid state disk is PERFECT. Problematic or weak sectors were not found. 
  The health is determined by SSD specific S.M.A.R.T. attribute(s):  #231 SSD Wear Indicator

  No actions needed.
 

Ja, akkor az meg is van az ok, az A400 újabban elég bugos széria, az nem is csoda, ha gyorsan kifekszik. A nagy részük szériahibás, és megfekszik az első pár hónapban, lagol, eltűnedezik, a végén meg vagy nem látszik egyáltalán vagy csak valami használhatatlan, generic firmware-es eszközként. Nem, nem az írásterheléstől függ, akkor is kifekszenek, ha semmit nem írsz rá. Ez általános tévhit egyébként, nem csak az A400-nál, hanem minden SSD-nél igaz, hogy általában nem a NAND fárad ki az írásokban, hanem írásterheléstől függetlenül a vezérlő fárad ki egy ponton.

Nálam is most nemrég volt egy 525 gigás Crucial MX300. Pedig ez nemi is szériahibás, maga korában középkategóriás cucc volt, de 4 év után tönkrement mindössze 5,5 tera írással (mikor 160 tera van megadva rá garilimitnek), kímélő és lightos linuxos használattal (nem volt rajta Windows, nem volt swap, nem volt sok letöltés). Még működik, de egyes fájlokat már nem olvas vissza, szektorhibába ütközik. SMART önteszt már 2 éve is jelzett hibákat rajta, de akkor még hibátlanul működött. Nem zavar, mert eleve egy pótgépben van, nem nagyon használom, nincs rajta kritikus adat, meg kiszolgálta már az idejét, visszahozta az árát. Lecserélem majd, de azt is később, mert van mellette abban a régebbi laptopban egy mSATA Samsung 860 EVO is, ami meg szinte patyolat még, alig volt használva, kb. 1-2 tera írás, annak semmi baja. 8 darab SSD-mből ez az első, ami megfeküdt. A többi hibátlanul működik azóta is. HDD-t már vagy 4 éve nem is használok egyik gépemben sem, csak külső meghajtóként, néha archiválok rájuk, offline n+1. mentésnek szolgálnak. Már pendrive-ot sem nagyon használok, arra is külső SSD-k vannak befogva.

Az SSD-k, ahogy egyre olcsóbbak lesznek, egyre inkább olyanok szériahiba nélkül is, mint a pendrive, vagy uSD kártyák, vagy a műanyag pohár, olcsó, elkopó, eldobható fogyóeszközök. Kár rajta görcsölni, hogy 100 év gari legyen rá, meg örökké bírja 100 petabájtig. Használni kell, tart, ameddig tart, biztonsági mentés amúgy is kell tartani (hiszen user error miatti felülírás, beszívott ransomware is okozhat adatvesztést), ha kifeküdt, le kell cserélni, nem siratni, meg kímélni.

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

De, siratni kell, meg kímélni, mert munka van vele, idő amíg megcsinálod. Ezen felül oprendszert nem telepítünk, viszont arról mentés nincs, marad a másolás, ha van még honnan. Egyedüli megoldás esetleg a RAID 1. Ne menjen tönkre a háttértár, mert a gép kiesése időveszteség akkor is, ha egy otthoni desktop gépről van szó.

tr '[:lower:]' '[:upper:]' <<<locsemege
LOCSEMEGE

Ez felhasználóként változik. Én csak betolom az új SSD-t és mehet az Arch reinstall, ami nem nagy munka, mert csomaglistát telepítek rá, meg visszahozom a config fájlokat a home-ból (ezekről van mentés, mint adatról), így nem kell mindent előlről konfigolni, ha lusta lennék, akár ArcoLinux formájában is felhúzhatnám kb. ugyanazt. Nem tartok az OS-ről másolatot, mert kb. 3-6 havonta változik az a WM, applikációkör, amit használok, így nem sokat nyernék egy régi rendszer visszahúzásával. Nyilván, ha annyira komoly dologra használod, vagy lusta valaki, akkor igen, tartson a rendszerről mentést és klónozza azt vissza, de még az se túl nagy munka szerintem. RAID1 is lehet megoldás.

Mondom, túl van lihegve ez, nem olyan nagy dolog. A háttértárak már sok éve nem megbízhatók, HDD is bármikor bedögölhet. Meg sok felhasználó feleslegesen mániázik a belakott rendszeren, meg hogy ők nem telepítenek újra, mintha valami szentség lenne, hogy egy sok éve maguk előtt görgetett, és teleszemetelt rendszert lenne kötelező maguk előtt tolni a végtelenségig. Megy a sírás, hogy de be van lakva. Ja, be van, de egyszer anno az is belakatlanként kezdte, és majd belakják a következőt is.

Eleve nálam minden gépben 2 SSD is van, ha kimúlna az egyik, már meg se kell várni akár az újat se, pattan fel a másikra valami új rendszer. De mint írtam, sok év alatt, több SSD közül ez volt az első, ami elfáradt, az nem olyan rossz arány. Ha kíméled az SSD-t, azzal semmit nem hosszabbítasz meg az időtartamán, mert mint írtam, nem írásmennyiség-függő, hanem a vezérlő öregszik. Ha kíméled, akkor csak pocsékolod azt az írásmennyiséget benne hagyva, amit egyébként tudott volna nyújtani, benne hagyod, nem veszed ki belőle. De, használni, kell, addig, amíg még megy, de akkor minél több használatot ki kell belőle szedni, úgy legalább az árát kiszolgálja. Az a legrosszabb, ha megveszed, de nem használod ki, akkor miért fizettél érte?

Én se azért kíméltem, hogy tovább tartson, csak egyszerűen a felhasználásom olyan, hogy minimalista disztró, minimalista WM, terminálos alkalmazások, sok RAM, 0 swap (nincs csak rá szükségem, ott áll helyekben általában a rengeteg kihasználatlan fizikai memória), régebbi játékok, retró VM-ek és emulátorok, 1080p-s letöltések, így csak nincs nagy írásigényem. Igazából ha nem lenne annyira rizikósan megbízhatatlan, és támogatna hardveres öntitkosítást, akkor egy A400-zal is ellennék. Általában középkategóriánál jobbat nem is szoktam venni, de van alsókategóriás SSD-m is. Most legutóbb, mikor a mostani fő gépem volt új, egy 1 terás MX500-zat vettem, volt kemény 97 GBP. Ha ez is kibír 3-4 évet, akkor már teljesen jó, nem fogok haragudni rá. Bár azért illene neki ilyen lájtos felhasználásnál akár 5-10 évet is húzni, de addig nem szükséges, hogy tartson. Úgyis rendszeresen le lesz cserélve, ahogy egyre nagyobb tárhelyűeket kapni egyre olcsóbban. Egyre inkább mindegy, csak rendszer alá ne HDD-t tegyen valaki így, 2021-ben, hogy az röcögjön a rendszer alatt. Annak ellenére, hogy a HDD azért elmegy még Linux alatt, de pl. Win8-11-nél garantáltan kell a rendszer alá SSD, egyébként elviselhetetlenül lassan döcög a rendszer, főleg, ha valami frissítés, vagy vírusellenőrzés elindul a háttérben, beáll az egész gép, mint a szög, függetlenül attól, hogy hány mag, hány gigahertz, hány giga RAM, ha egyszer a HDD random I/O sebessége a szűk keresztmetszet. Ennek ellenére a Linux is meghálálja az SSD-t, annyival pattogósabb lesz a boot, progik indulása, stb..

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

Én azt vettem észre, hogy samba megosztáson másolva róla random valamelyik filmet simán hozta 50-60 MB-al de volt olyan, ami csak 5-6 MB-al jött át, ilyen véletlenszerűen.  SSD-ről SSD-re gigabites hálón át, kitesztelve a hálókártyákat, azok müködnek rendesen. Gondolom fárad az ssd, mondjuk eléggé tele is pakoltam filmekkel, de azért tizen-huszon gigát szabadon hagytam nagyjából.

Visszaadtam a laptopot használatra, azzal a tanáccsal, hogy próbálja meg kikapcsolt WIFI-vel használni, kábeles hálózati csatlakozással.

Azóta stabilan megy a laptop kikapcsolt WIFI-vel.

:O

Egyrészt ezek szerint valahol a wifi a ludas. Azt nem tudom, hogy ez hardveres vagy driver hiba, de előtte évekig ment problémamentesen, tehát inkább hardverre tippelek.

Az azonban elgondolkoztat, hogy egy wifi meghibásodás - még ha hardveres is -, hogyan eredményezheti a fájlrendszer sérülését, azaz a rengeteg 0x00 bájtot a logfájlokban?

Ez minimum nagyon furcsa. A rossz Wi-Fi-nak maximum csak gyakori kapcsolatszakadást, meg kapcsolódási képtelenséget kéne okozzon, nem fájlrendszerhibát meg leállást. Végül is vehet egy másik Wi-Fi kártyát, általában nem olyan rettenet drága, még az odaforrasztós laptopokon is általában cserélhető, inkább csak fura az egész topikbeli történet.

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

Végül is nagyon elméletileg nézve lehetséges. Persze nem sokat tudunk, csak hogy Legion Y50, de azt nem, hogy milyen Wi-Fi van benne. Lehet szabályzatba kéne foglalni, hogy ilyen topikokat csak akkor nyissanak, ha becsatolnak inxi -Fxxx; dmesg kimenetet.

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

Az azért elég típusfüggetlen, hogy egyáltalán mi okozhat ilyen hibát. A konkrét típust egyelőre nem tudom kideríteni, de engem meglep, hogy egy KZ-TT42 esetén lenne rá magyarázat, HB-WW18 esetén azonban nem. Ha wifi hardver hiba, akkor szerintem ez független a konkrét hardvertől. Ha meg driver hiba - ami fura lenne sok-sok év használat után -, az meg hogyan okozhat fájlsérülést?

Igen, olvastam, felfogtam, mégis túlságosan furának érzem. A fájlrendszernapló nem épp arra való, hogy biztosítsa a fájlrendszer konzisztenciáját? Vagy az csak leállás ellen véd, és az adatokra nem használ ellenőrzőösszeget, amiből kiderülne, hogy sérült a cache? A napló adatszinten nem is figyel semmit, csak annyit, hogy a blokkláncok konzisztensek legyenek, a blokkok tartalma tényleg lehet random is hiba esetén? Mondjuk így leírva elégé elképzelhetőnek tűnik...

Na igen, a soha elő nem forduló eset előfordulása. :) Olyan még saját magam által írt firmware-ben is volt, hogy eljutottam egy elvileg soha elő nem forduló esethez, de gondoltam, azért odaírom, hogy logolja be, ha mégis az történik. Aztán egyszer csak a logban látom az üzenetet, mely szerint előfordult az, ami amúgy nem fordulhatna elő. Fontos elvarrni egy kódban minden szálat, diszkutálni minden lehetséges esetet, még ha fáradságos is, mert meglepő dolgok derülhetnek ki egy rendszerről, ami alaposabb vizsgálatot igényel, hogyan fordulhatott elő, amiről azt gondoltuk, hogy teljességgel kizárt.

tr '[:lower:]' '[:upper:]' <<<locsemege
LOCSEMEGE

Korábbi munkahelyemen programozó kollégám vicces, mondjuk úgy, nem egészen ügyfélcentrikus, nem szalonképes üzenetet írt ilyen helyre. Benne is felejtette, majd egyszer egy ügyfél felhívott azzal minket, hogy mit kell csinálni akkor ha a berendezés azt írja ki, hogy... (itt mindenki fantáziája szárnyaljon szabadon :) ).

tr '[:lower:]' '[:upper:]' <<<locsemege
LOCSEMEGE

Szerkesztve: 2021. 07. 10., szo – 07:41

Én alaplap hibára gyanakodnék. Nemrég volt nálam egy Dell hasonló tünetekkel. 2 napig küzdöttem vele, aztán alaplap csere lett a vége. Addig eljutottam vele, ha a dedikált nvidia "kártyát" akarta használni és elkezdett melegedni, abban a pillanatban megállt.

Laptopnál (majdnem teljesen) függetlenül a hibátôl az első dolog kivenni az akkut és kipróbálni úgy. Meglepő hibákat képes produkálni :/

“Any book worth banning is a book worth reading.”