[talán MEGOLDVA]Hibás HDD az LVM-ben?

 ( pepo | 2018. december 17., hétfő - 17:47 )

Sziasztok!

Nem tudom lefülelni, melyik merevlemez lehet esetleg hibás - sőt, még abban sem lehetek biztos, csak erősen gyanítom, hogy HDD hibáról van szó - egy LVM-be pakolt két merevlemez közül.
Leírom a jelenséget, aztán hátha tudtok okos ötlettel szolgálni:
Nagy mennyiségű adatok (méretre max 100 MiB/db) közül való olvasás közben pillanatok alatt olyan load igény merül fel a rendszerrel szemben, hogy csak a hard reset segít. Ssh-val sem tudok belépni, fogalmam sincs mi az, ami terhelés kap: CPU, RAM stb. bármi szóba jöhet.
A szokásos naplófájlok szembevigyorognak: semmit sem rögzítenek.
Ha vannak tippek, akkor adom a részleteket a gépről, rendszerről, egyelőre nem szeretném, ha nagyon egy irányba menne el a segítség.

Előre is köszönöm.

Szerk.: Linux az OS

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

smartctl -a <hdd> mit mond?

Mind a kettőre: No Errors Logged

de nem ezt kell nezni, hanem szepen copyzd ide a smart attributumok ertekeit, aztan majd szakertunk.

--
HUP te Zsiga !

+1

sdc-t en mostanra mar kidobtam volna:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   099   099   010    Pre-fail  Always       -       13
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       13566230

Köszönöm. Kiröppen a lvm-ből.
Ha ezek után is fennáll a jelenség, jelzem itt.

Mindenkinek köszönöm a segítséget.

Szerk.: Mindenesetre, ha a merevlemezhiba okozta a teljes gép overloadot, akkor sok-sok év után én is láttam ilyet "élőben".

ha diszkre gyanakszol, akkor pl. smart adatok
ha ramra gyanakszol, akkor memtest.
ha a táp nem bírja, az már trükkösebb.

amúgy meg belősz valami monitoring scriptet, ami viszonylag nagy felbontásban logolja a CPU használatot, az iowaitet, iotop kimenetet, stb.

A memtest nem jelzett hibákat már néztem.
A tápra nem gyanakszom, viszonylag új, és nem nagyon van, ami megterhelné.

A script +1, egyelőre talonban. Köszönöm.

ha elkezded cat-olni a lv-t device, akkor is beall? ha csak bizonyos fajl, akkor kikeresed hol van, es csak azt/onnan (ddvel) olvasol? aztan ugyanezt "atszamolod" konkret pv devicere, es azt olvasod.

--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

Igazából az elvvel hadakozom: ha azt mondjátok, hogy egy hibás szektor, vagy bármi miatt képes "beállni" az egész rendszer - amivel én még nem találkoztam adatlemez esetén -, akkor ki"cat"-elem az egészet.

Logolj távolra, hátha akkor elsírja bánatát.

hmm... badblocks -svn már volt?

Még nem, köszönöm.

én ilyet ESXi és debian guest vonalon tapasztaltam. már nem tudom mivel sikerült tünetileg kezelni. logokban nem láttunk semmit.

közben eszembe jutott: nem csak debian (stable) guest, hanem ubuntu (latest LTS) alatt is teszteltük és végül downgradeltünk prev LTS-re, akkor tűnt úgy, hogy megoldódott, ami alapján arra jutottunk, hogy kernel környékén lehet a probléma. Tudtommal azóta nem jelentkezett. Egyébként az érdekes az, hogy 12 guestből csak azt hiszem kettő produkálta. Lehet, hogy csak szerencsénk van és azért nem jött még elő a jelenlegi felállásban.

Őszintén: ilyesmire gondoltam... Néhány Ubuntu Kernelt rápróbálok. Downgrade-elni nincs lehetőségem. Még a fenti javasolt disk-ellenőrzéseket megcsinálom. Ha utána a saját Kernel fordítású Kernel sem segít, akkor jön a hardweres kutakodás, amit szerettem volna jól elkerülni.

HDD cache hiba és -esetleg nem látható- badsector csinál ilyet, mikor a diszk próbál olvasni, de nem tudja, és nekiáll a hibajavításnak. Bármilyen rendszer alatt találkoztam ilyennel Samsung HDD esetén.

--
openSUSE 42.2 x86_64

Akkor lehet, hogy nyekk:

Model Family: SAMSUNG SpinPoint T166
Device Model: SAMSUNG HD501LJ
Serial Number: S0MUJ1KQ128923

A modell is stimmel.

--
openSUSE 42.2 x86_64

A jelenség is teljesen?
Adatvesztést is okozott, vagy ez inkább adatátviteli hiba?

A legutóbbinál volt adatvesztés (szerencsére nem fontos adat volt, és arról is volt mentés), egy db fájl volt azon a ponton, amit amikor próbált megnyitni a script, hogy dolgozzon bele, akkor a rendszer beállt, iowait az egekben, majd azért a logba besírt, hogy "helló-szia, io-error van" De azt is csak a hálózatra sikerült neki, a külön diszken lévő /var-ra sem volt hajlandó írni. Végül amikor töröltem a fájlt és újra létrehozattam a scripttel, akkor jó lett a dolog. Még azt hiszem megvan az a kérdéses HDD valahol a fiók mélyén, hogy tesztelgessem mi lehetett a problémája, amin nem tudott magától túllépni.

--
openSUSE 42.2 x86_64