IO errors

Sziasztok!

Egy olyan kérdésem volna, hogy kaptam a syslog-ba egy ilyen hiba üzenetet

JBD2: Detected IO errors while flushing file data

Azaz nem egyet, többet..!

és ezután nem íródott egy log fájlom se tovább! Mert csak olvasásra engedte megnyitni a log fájlokat!

Előzmény: a hétvégén feszültség kimaradás végett leállt a rendszerem és reggelre szét volt esve a raid5 tömböm, ezután újra telepítésre került a rendszer!

Lehetséges, hogy az egyik vincseszter haldoklik? Vagy mi okozhatja ezt a hibát?! és hogyan tudnám orvosolni?!

Előre is köszi a válaszokat!

Hozzászólások

Nézd meg melyik disk lehet hibás, majd cseréld ki.

Erre talán a legegyszerűbb módszer a dd.
dd if=/dev/disked of=/dev/null

Ha IO hibával megáll, akkor hibás, és lehet cserélni.
Még esetleg a flush miatt lehet a memória hiba, ezt egy memtest elárulja neked.

Azt a scsi dolgot nem tudom, hogy van, de a //dev... helyett /dev kell.

szerk : gugli szerint a scsi is /dev/sdx...

Az üzenet, amennyiben minden rendben megy, akkor ez lesz, természetesen teljesen más számokkal :

325345+0 beolvasott rekord
325345+0 kiírt rekord
166576128 bájt (167 MB) másolva, 1,79877 mp, 92,6 MB/mp

Nem! Ma raktam újra, aztán ssh konfiguráltam, majd a load ugrált 1 és 8 között már ez gyanús volt, aztán egyszer csak kiírta ezt a hibát majd nem írta tovább a log fájlokat(és úgy egyáltalán a var-t), tehát ez az esemény kb a telepítés után egy félórára jött

Értem. Bár telepítés után vajmi kevés az esélye az ilyen hibának, de egy fsck-t ráengednék. Utána pedig próbáld meg, amit a kolléga javasolt. Eltarthat egy darabig, lemezmérettől függően. Illetve 3 darabig, lévén 3 lemez van. Bár nem tudom, hogy nem az írást kéne-e tesztelni inkább, ha azzal van a baj. Csak akkor arra kell figyelni, hogy ugyanazt írja fel az ember, ami addig is ott volt. A dd if=/dev/sda of=/dev/sda nem tudom, működik-e, ezért amíg hozzáértő meg nem erősít, NE próbáld ki. :)

Ha cciss akkor HP és HW raid?
Hogy esett szét a RAID?

Elég ha a dd-nek a /dev/cciss/c0d0 van megadva.
Ha gond van akkor IO error hibát ad.
De nem igazán értem ezt a szétesést, mert a raid5 egy disk hibát elvisel, így lehet több disk is hibás.
Van egy cciss csomag debian és ubuntu alá, nem írtad mit használsz, de ha tudod tedd fel, és többet tudsz majd a diskek állapotáról.

Így van HP HW raid

Szerintem több vinyó sérült azért esett szét a tömb, mert volt már, hogy egy vinyó kiesett, de amikor beletettem egy másikat akkor szépen felépült a tömb és ment tovább.., most amikor bekapcsoltam(rádugtam egy monitort) be se volt töltve a rendszer.

A kérdésem az volna, h most egy-két hétig pöfögnie kell egy oldalnak rajta(mindenképp!!), de engem ez a hiba nagyon zavar, mellesleg nem tudok letölteni a szerverre és még feltölteni se adatot, értem én a honlaphoz új képet vagy akármit... a wget se működik h esetleg egy másik tárhelyről letölteném a szerverre ilyen hibát kapok a wget-re :

-bash: /usr/bin/wget: Kimeneti/bemeneti hiba

Kérdésem az volna ezek a lemez ellenőrizgetések fenn akadást okoznának az oldal futásában?

Mert így legalább az oldal elérhető!

Mivel egy HW-es raid-ről beszélünk, nem tudod meg melyik disk a hibás, csak azt, hogy valahol a raid-ben van IO hiba.
Elméletileg a HP jelzi a hibás disk-et egy piros "LED"-del. Amíg azt a disk-et/ket nem cseréled ki, addig semmi nem fog működni egy raid5 tömbben, mert adatvesztésed van.
Első lépésként rakd rendbe a HW-t, utána jöhet az OP rendberakása, elveszett elemek pótlása, majd a ha ezek stabilan mennek, jöhet a tartalom veszteségeinek felmérése.
Addig ne is akarj semmi mást.
Ha nem akarsz beletenni pénzt a cuccba, akkor egy live CD segítségével mentsed ki a szükséges adatokat, majd a hibás disk-ek nélkül rakj össze egy raid-et, és tegyél fel rá mindent.

Talán mert nem az egész diszk a rossz, hanem csak egy bizonyos területéről nem megy az írás-olvasás.
A HP raid toolokkal nézd meg, melyik winyó a rossz, vagy a LED-eket, ahogy más is javasolta, csere, ha azután se jó, akkor meg lehet a raid vezérlő, kábelek, backplane, stb...
Ha meg hardverileg nem látszik semmi hiba, érdemes lehet még a SmartArray firmware-t is frissíteni.

Létezik hogy nem raktad fel a smart -ot?
#smartctl -a /dev/disked

* Én egy indián vagyok. Minden indián hazudik.

Lefuttattam a sudo fsck-t ezt az üzenetet kaptam esetleg részletezné nekem vki mit is jelent?

fsck from util-linux-ng 2.17.2
e2fsck 1.41.11 (14-Mar-2010)
/dev/cciss/c0d0p2: recovering journal
Error reading block 1081836 (Attempt to read block from filesystem resulted in short read). Ignore error? yes

Force rewrite? yes

fsck.ext4: Bad magic number in super-block while trying to re-open /dev/cciss/c0d0p2
Warning... fsck.ext4 for device /dev/cciss/c0d0p2 exited with signal 11.

Ennek a parancsnak a kiadásakor
sudo dd if=/dev/cciss/c0d0p1

ezt a hibát kaptam:

sudo: parse error in /etc/sudoers near line 24
sudo: no valid sudoers sources found, quitting

Akkor már a lemezeket lese tudom ellenőrizni ezzel a módszerrel?!

Nekem ez gyanús, a sudoers file-nak el kéne férnie egy szektoron, annak az esélye, hogy nem tudja beolvasni, kisebb, mint a lottóötös.
Próbálj meg belépni root-ként, ha a sudo nem megy. DD-nek szerintem kellene egy output is (of=valami), különben a standard outputra tolja a cuccot, ami a terminal...