[talán MEGOLDVA]Hibás HDD az LVM-ben?

Sziasztok!

Nem tudom lefülelni, melyik merevlemez lehet esetleg hibás - sőt, még abban sem lehetek biztos, csak erősen gyanítom, hogy HDD hibáról van szó - egy LVM-be pakolt két merevlemez közül.
Leírom a jelenséget, aztán hátha tudtok okos ötlettel szolgálni:
Nagy mennyiségű adatok (méretre max 100 MiB/db) közül való olvasás közben pillanatok alatt olyan load igény merül fel a rendszerrel szemben, hogy csak a hard reset segít. Ssh-val sem tudok belépni, fogalmam sincs mi az, ami terhelés kap: CPU, RAM stb. bármi szóba jöhet.
A szokásos naplófájlok szembevigyorognak: semmit sem rögzítenek.
Ha vannak tippek, akkor adom a részleteket a gépről, rendszerről, egyelőre nem szeretném, ha nagyon egy irányba menne el a segítség.

Előre is köszönöm.

Szerk.: Linux az OS

Hozzászólások

ha diszkre gyanakszol, akkor pl. smart adatok
ha ramra gyanakszol, akkor memtest.
ha a táp nem bírja, az már trükkösebb.

amúgy meg belősz valami monitoring scriptet, ami viszonylag nagy felbontásban logolja a CPU használatot, az iowaitet, iotop kimenetet, stb.

ha elkezded cat-olni a lv-t device, akkor is beall? ha csak bizonyos fajl, akkor kikeresed hol van, es csak azt/onnan (ddvel) olvasol? aztan ugyanezt "atszamolod" konkret pv devicere, es azt olvasod.

--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

Logolj távolra, hátha akkor elsírja bánatát.

én ilyet ESXi és debian guest vonalon tapasztaltam. már nem tudom mivel sikerült tünetileg kezelni. logokban nem láttunk semmit.

közben eszembe jutott: nem csak debian (stable) guest, hanem ubuntu (latest LTS) alatt is teszteltük és végül downgradeltünk prev LTS-re, akkor tűnt úgy, hogy megoldódott, ami alapján arra jutottunk, hogy kernel környékén lehet a probléma. Tudtommal azóta nem jelentkezett. Egyébként az érdekes az, hogy 12 guestből csak azt hiszem kettő produkálta. Lehet, hogy csak szerencsénk van és azért nem jött még elő a jelenlegi felállásban.

Őszintén: ilyesmire gondoltam... Néhány Ubuntu Kernelt rápróbálok. Downgrade-elni nincs lehetőségem. Még a fenti javasolt disk-ellenőrzéseket megcsinálom. Ha utána a saját Kernel fordítású Kernel sem segít, akkor jön a hardweres kutakodás, amit szerettem volna jól elkerülni.

HDD cache hiba és -esetleg nem látható- badsector csinál ilyet, mikor a diszk próbál olvasni, de nem tudja, és nekiáll a hibajavításnak. Bármilyen rendszer alatt találkoztam ilyennel Samsung HDD esetén.

--
openSUSE 42.2 x86_64

A legutóbbinál volt adatvesztés (szerencsére nem fontos adat volt, és arról is volt mentés), egy db fájl volt azon a ponton, amit amikor próbált megnyitni a script, hogy dolgozzon bele, akkor a rendszer beállt, iowait az egekben, majd azért a logba besírt, hogy "helló-szia, io-error van" De azt is csak a hálózatra sikerült neki, a külön diszken lévő /var-ra sem volt hajlandó írni. Végül amikor töröltem a fájlt és újra létrehozattam a scripttel, akkor jó lett a dolog. Még azt hiszem megvan az a kérdéses HDD valahol a fiók mélyén, hogy tesztelgessem mi lehetett a problémája, amin nem tudott magától túllépni.

--
openSUSE 42.2 x86_64