[talán MEGOLDVA]Hibás HDD az LVM-ben?

Sziasztok!

Nem tudom lefülelni, melyik merevlemez lehet esetleg hibás - sőt, még abban sem lehetek biztos, csak erősen gyanítom, hogy HDD hibáról van szó - egy LVM-be pakolt két merevlemez közül.
Leírom a jelenséget, aztán hátha tudtok okos ötlettel szolgálni:
Nagy mennyiségű adatok (méretre max 100 MiB/db) közül való olvasás közben pillanatok alatt olyan load igény merül fel a rendszerrel szemben, hogy csak a hard reset segít. Ssh-val sem tudok belépni, fogalmam sincs mi az, ami terhelés kap: CPU, RAM stb. bármi szóba jöhet.
A szokásos naplófájlok szembevigyorognak: semmit sem rögzítenek.
Ha vannak tippek, akkor adom a részleteket a gépről, rendszerről, egyelőre nem szeretném, ha nagyon egy irányba menne el a segítség.

Előre is köszönöm.

Szerk.: Linux az OS

1181 megtekintés

smartctl -a <hdd>

mit mond?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mind a kettőre: No Errors Logged

0 szavazat

A hozzászóláshoz be kell jelentkezni

de nem ezt kell nezni, hanem szepen copyzd ide a smart attributumok ertekeit, aztan majd szakertunk.

--
HUP te Zsiga !

1 szavazat

A hozzászóláshoz be kell jelentkezni

0 szavazat

A hozzászóláshoz be kell jelentkezni

Oké, csinálom.

sda: https://pastebin.com/qs7cT41y
sdc: https://pastebin.com/auVENNeK

0 szavazat

A hozzászóláshoz be kell jelentkezni

sdc-t en mostanra mar kidobtam volna:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   099   099   010    Pre-fail  Always       -       13
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       13566230

0 szavazat

A hozzászóláshoz be kell jelentkezni

Köszönöm. Kiröppen a lvm-ből.
Ha ezek után is fennáll a jelenség, jelzem itt.

Mindenkinek köszönöm a segítséget.

Szerk.: Mindenesetre, ha a merevlemezhiba okozta a teljes gép overloadot, akkor sok-sok év után én is láttam ilyet "élőben".

0 szavazat

A hozzászóláshoz be kell jelentkezni

ha diszkre gyanakszol, akkor pl. smart adatok
ha ramra gyanakszol, akkor memtest.
ha a táp nem bírja, az már trükkösebb.

amúgy meg belősz valami monitoring scriptet, ami viszonylag nagy felbontásban logolja a CPU használatot, az iowaitet, iotop kimenetet, stb.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A memtest nem jelzett hibákat már néztem.
A tápra nem gyanakszom, viszonylag új, és nem nagyon van, ami megterhelné.

A script +1, egyelőre talonban. Köszönöm.

0 szavazat

A hozzászóláshoz be kell jelentkezni

ha elkezded cat-olni a lv-t device, akkor is beall? ha csak bizonyos fajl, akkor kikeresed hol van, es csak azt/onnan (ddvel) olvasol? aztan ugyanezt "atszamolod" konkret pv devicere, es azt olvasod.

--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Igazából az elvvel hadakozom: ha azt mondjátok, hogy egy hibás szektor, vagy bármi miatt képes "beállni" az egész rendszer - amivel én még nem találkoztam adatlemez esetén -, akkor ki"cat"-elem az egészet.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Logolj távolra, hátha akkor elsírja bánatát.

0 szavazat

A hozzászóláshoz be kell jelentkezni

hmm... badblocks -svn már volt?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Még nem, köszönöm.

0 szavazat

A hozzászóláshoz be kell jelentkezni

én ilyet ESXi és debian guest vonalon tapasztaltam. már nem tudom mivel sikerült tünetileg kezelni. logokban nem láttunk semmit.

közben eszembe jutott: nem csak debian (stable) guest, hanem ubuntu (latest LTS) alatt is teszteltük és végül downgradeltünk prev LTS-re, akkor tűnt úgy, hogy megoldódott, ami alapján arra jutottunk, hogy kernel környékén lehet a probléma. Tudtommal azóta nem jelentkezett. Egyébként az érdekes az, hogy 12 guestből csak azt hiszem kettő produkálta. Lehet, hogy csak szerencsénk van és azért nem jött még elő a jelenlegi felállásban.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Őszintén: ilyesmire gondoltam... Néhány Ubuntu Kernelt rápróbálok. Downgrade-elni nincs lehetőségem. Még a fenti javasolt disk-ellenőrzéseket megcsinálom. Ha utána a saját Kernel fordítású Kernel sem segít, akkor jön a hardweres kutakodás, amit szerettem volna jól elkerülni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

HDD cache hiba és -esetleg nem látható- badsector csinál ilyet, mikor a diszk próbál olvasni, de nem tudja, és nekiáll a hibajavításnak. Bármilyen rendszer alatt találkoztam ilyennel Samsung HDD esetén.

--
openSUSE 42.2 x86_64

0 szavazat

A hozzászóláshoz be kell jelentkezni

Akkor lehet, hogy nyekk:

Model Family: SAMSUNG SpinPoint T166
Device Model: SAMSUNG HD501LJ
Serial Number: S0MUJ1KQ128923

0 szavazat

A hozzászóláshoz be kell jelentkezni

A modell is stimmel.

--
openSUSE 42.2 x86_64

0 szavazat

A hozzászóláshoz be kell jelentkezni

A jelenség is teljesen?
Adatvesztést is okozott, vagy ez inkább adatátviteli hiba?

0 szavazat

A hozzászóláshoz be kell jelentkezni

A legutóbbinál volt adatvesztés (szerencsére nem fontos adat volt, és arról is volt mentés), egy db fájl volt azon a ponton, amit amikor próbált megnyitni a script, hogy dolgozzon bele, akkor a rendszer beállt, iowait az egekben, majd azért a logba besírt, hogy "helló-szia, io-error van" De azt is csak a hálózatra sikerült neki, a külön diszken lévő /var-ra sem volt hajlandó írni. Végül amikor töröltem a fájlt és újra létrehozattam a scripttel, akkor jó lett a dolog. Még azt hiszem megvan az a kérdéses HDD valahol a fiók mélyén, hogy tesztelgessem mi lehetett a problémája, amin nem tudott magától túllépni.

--
openSUSE 42.2 x86_64

0 szavazat