Sziasztok!
Nem tudom lefülelni, melyik merevlemez lehet esetleg hibás - sőt, még abban sem lehetek biztos, csak erősen gyanítom, hogy HDD hibáról van szó - egy LVM-be pakolt két merevlemez közül.
Leírom a jelenséget, aztán hátha tudtok okos ötlettel szolgálni:
Nagy mennyiségű adatok (méretre max 100 MiB/db) közül való olvasás közben pillanatok alatt olyan load igény merül fel a rendszerrel szemben, hogy csak a hard reset segít. Ssh-val sem tudok belépni, fogalmam sincs mi az, ami terhelés kap: CPU, RAM stb. bármi szóba jöhet.
A szokásos naplófájlok szembevigyorognak: semmit sem rögzítenek.
Ha vannak tippek, akkor adom a részleteket a gépről, rendszerről, egyelőre nem szeretném, ha nagyon egy irányba menne el a segítség.
Előre is köszönöm.
Szerk.: Linux az OS
- 1179 megtekintés
Hozzászólások
smartctl -a <hdd>
mit mond?
- A hozzászóláshoz be kell jelentkezni
Mind a kettőre: No Errors Logged
- A hozzászóláshoz be kell jelentkezni
de nem ezt kell nezni, hanem szepen copyzd ide a smart attributumok ertekeit, aztan majd szakertunk.
--
HUP te Zsiga !
- A hozzászóláshoz be kell jelentkezni
+1
- A hozzászóláshoz be kell jelentkezni
Oké, csinálom.
sda: https://pastebin.com/qs7cT41y
sdc: https://pastebin.com/auVENNeK
- A hozzászóláshoz be kell jelentkezni
sdc-t en mostanra mar kidobtam volna:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 099 099 010 Pre-fail Always - 13
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 13566230
- A hozzászóláshoz be kell jelentkezni
Köszönöm. Kiröppen a lvm-ből.
Ha ezek után is fennáll a jelenség, jelzem itt.
Mindenkinek köszönöm a segítséget.
Szerk.: Mindenesetre, ha a merevlemezhiba okozta a teljes gép overloadot, akkor sok-sok év után én is láttam ilyet "élőben".
- A hozzászóláshoz be kell jelentkezni
ha diszkre gyanakszol, akkor pl. smart adatok
ha ramra gyanakszol, akkor memtest.
ha a táp nem bírja, az már trükkösebb.
amúgy meg belősz valami monitoring scriptet, ami viszonylag nagy felbontásban logolja a CPU használatot, az iowaitet, iotop kimenetet, stb.
- A hozzászóláshoz be kell jelentkezni
A memtest nem jelzett hibákat már néztem.
A tápra nem gyanakszom, viszonylag új, és nem nagyon van, ami megterhelné.
A script +1, egyelőre talonban. Köszönöm.
- A hozzászóláshoz be kell jelentkezni
ha elkezded cat-olni a lv-t device, akkor is beall? ha csak bizonyos fajl, akkor kikeresed hol van, es csak azt/onnan (ddvel) olvasol? aztan ugyanezt "atszamolod" konkret pv devicere, es azt olvasod.
--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!
- A hozzászóláshoz be kell jelentkezni
Igazából az elvvel hadakozom: ha azt mondjátok, hogy egy hibás szektor, vagy bármi miatt képes "beállni" az egész rendszer - amivel én még nem találkoztam adatlemez esetén -, akkor ki"cat"-elem az egészet.
- A hozzászóláshoz be kell jelentkezni
Logolj távolra, hátha akkor elsírja bánatát.
- A hozzászóláshoz be kell jelentkezni
hmm... badblocks -svn már volt?
- A hozzászóláshoz be kell jelentkezni
Még nem, köszönöm.
- A hozzászóláshoz be kell jelentkezni
én ilyet ESXi és debian guest vonalon tapasztaltam. már nem tudom mivel sikerült tünetileg kezelni. logokban nem láttunk semmit.
közben eszembe jutott: nem csak debian (stable) guest, hanem ubuntu (latest LTS) alatt is teszteltük és végül downgradeltünk prev LTS-re, akkor tűnt úgy, hogy megoldódott, ami alapján arra jutottunk, hogy kernel környékén lehet a probléma. Tudtommal azóta nem jelentkezett. Egyébként az érdekes az, hogy 12 guestből csak azt hiszem kettő produkálta. Lehet, hogy csak szerencsénk van és azért nem jött még elő a jelenlegi felállásban.
- A hozzászóláshoz be kell jelentkezni
Őszintén: ilyesmire gondoltam... Néhány Ubuntu Kernelt rápróbálok. Downgrade-elni nincs lehetőségem. Még a fenti javasolt disk-ellenőrzéseket megcsinálom. Ha utána a saját Kernel fordítású Kernel sem segít, akkor jön a hardweres kutakodás, amit szerettem volna jól elkerülni.
- A hozzászóláshoz be kell jelentkezni
HDD cache hiba és -esetleg nem látható- badsector csinál ilyet, mikor a diszk próbál olvasni, de nem tudja, és nekiáll a hibajavításnak. Bármilyen rendszer alatt találkoztam ilyennel Samsung HDD esetén.
--
openSUSE 42.2 x86_64
- A hozzászóláshoz be kell jelentkezni
Akkor lehet, hogy nyekk:
Model Family: SAMSUNG SpinPoint T166
Device Model: SAMSUNG HD501LJ
Serial Number: S0MUJ1KQ128923
- A hozzászóláshoz be kell jelentkezni
A modell is stimmel.
--
openSUSE 42.2 x86_64
- A hozzászóláshoz be kell jelentkezni
A jelenség is teljesen?
Adatvesztést is okozott, vagy ez inkább adatátviteli hiba?
- A hozzászóláshoz be kell jelentkezni
A legutóbbinál volt adatvesztés (szerencsére nem fontos adat volt, és arról is volt mentés), egy db fájl volt azon a ponton, amit amikor próbált megnyitni a script, hogy dolgozzon bele, akkor a rendszer beállt, iowait az egekben, majd azért a logba besírt, hogy "helló-szia, io-error van" De azt is csak a hálózatra sikerült neki, a külön diszken lévő /var-ra sem volt hajlandó írni. Végül amikor töröltem a fájlt és újra létrehozattam a scripttel, akkor jó lett a dolog. Még azt hiszem megvan az a kérdéses HDD valahol a fiók mélyén, hogy tesztelgessem mi lehetett a problémája, amin nem tudott magától túllépni.
--
openSUSE 42.2 x86_64
- A hozzászóláshoz be kell jelentkezni