hibás merevlemez a RAID1 tömbben [MEGOLDVA]

A napokban több féle problémám adódott 1 Samba szerveremmel:
1. Az "ethtool -s eth0 speed 100 duplex full autoneg on" parancs nem hajlandó megváltoztatni a hálókártyám sebességét, marad 10 half, autoneg off beállításon.
2. Vista Business-szel bejelentkezve erre a pdc-re néha azt írja ki a kliensen, hogy "Nem sikerült minden hálózati meghajtót csatlakoztatni"! Nem mindig csinálja ezt, és ha nem sikerült, akkor 1 kilépés/belépés után csont nélkül becsatolja a hálózati meghajtóimat.

Nyomozás közben elindítottam a raid1 tömböm mindkét hdd-jén egy badblocks parancsot, és a rai tömb második merevlemezén elég sok szektorhibát talált. Az első disk hibátlan.
Okozhatja ez a fenti problémákat? Vagy csak véletlen egybeesésről van szó? Merthogy a hda jól működik...

Hozzászólások

En elsore inkabb halozati hibara tippelnek...

Az ethtool problémáról friss infó: ha nincs hálókábel dugva az eth0-ba, akkor simán elfogadja a 100 mega full-t, ha rádugom a szervert a switch-re (D-Link DES 1008D), akkor visszaáll 10 mega half-ra. Ugyanez a helyzet, ha közvetlenül gépre dugom a szervert, akkor is visszaáll. Holott a switch 10/100-as...

cd /var/log/samba/ ; ls -ltr | tail

Így látod a mostanában változott logfájlokat, azokat érdemes átbogarászni hiba után. Meg syslog, daemon.log fájlokat a /var/log alatt.

De szerintem se diskhiba, inkább hálózati zizi.

Ha a raid1 egyik tagja hibás lesz, kiesik a tömbből. Ha ez a badblocks hatására nem történt meg, vagy magától, akkor

echo check > /sys/block/md1/md/sync_action

kb. (persze a megfelelő md re)

És ettől tuti kiesik a rossz eszköz a tömbből.

Az ethtool nak 100%, a sambanak 99%, hogy a raidhez semmi köze.

Valószínúleg nincs köze egymáshoz.

Hálózati kártyához annyit fűznék hozzá, hogy láttam már több rtl8139-es (SMC gyártmány, tehát nem egészen szemét) kártyát így megmenni egyik napról a másikra - csak 10Mbit-en hajlandók kommunikálni.

HDD-ről: szedd ki a második lemezt a tömbből, adj neki egy zero fill-t (dd-vel) majd pakold vissza miután smartctl-vel megnézted mennyire tragikus a helyzet.

67 hibás szektort talált a badblocks, de mivel szerverként megy a gép, így nem foglalkozok a kérdéssel, kerítek egy másik disket, és azon helyreállítom.
Lama on:
Erről jut eszembe: mi a pontos folyamat raid tömbben diszk cserekor?
1. Kerítek egy ugyanakkora méretű hdd-t
2. Létrehozom az ugyanakkora partíciókat.
3. Mehet a régi helyére, és a szinkronizálás magától elindul???

Nem csináltam még ilyet, és nem akarom elrontani!
Lama off

Szervernél a hótswappos diszket kihúz, az újat meg betol, aztán a management sw-ben figyeli az állapotát. ha már nem resync vagy hasonló, akkor készen vagy. Ha szaftos, akarom mondani szoftos, akkor lehetnek szaftos mondatok, melyek elhagyják a szádat menet közben, emiatt javasolt tervezett leállást kérni, és úgy matatni a tömböt, egy mentés után.
Szoftraid esetén, pláne ha nincs hotswap, én leállást kérnék, leállít, diszkeket pl. cd/dvd-től bootolva egyenként ellenőriz, a döglődőt megjelöl. Harmadik(!) diszkként berakni az újat, boot, partícionálás, tömbhöz hozzárak (tripla tükör). Amikor kész a szinkron, a döglődő diszket mirrorból kihajít, gép leáll, döglött diszk (ne pörögjön/fűtsön) kiszerel, boot, ö'öm és bódottá'...

írjátok ezt a mirror kirúg dolgot, nyilván, ha már failed, akkor érdemes kirúgni, de ha még nem, akkor viszont nem jobb, ha először átkonfigurálni a raid1-et, hogy 3 diszkes legyen, hozzáadni az új partíciót, megvárni amíg lefut a sync, és utána kirúgni a rossz diszket? Így kisebb az esély, hogy a resync alatt hiba lesz, hiszen két forrásvinyó is van. Vélemény?

Persze, ha már failed, akkor már nem, de ha nem az, akkor simán. És amióta 1-2 hibás szektor miatt nem rúgja ki a linux a raid tömbből a diszket, azóta egy ilyen néhány blokk rossz állapotú diszknél simán lehet hogy automata nem kerül ki a tömbből, hanem használatban marad.

szerintem az az ethtoolos parancs értelmetlen. most vagy megmondod a sebességet meg a duplexitást, akkor autoneg off, vagy autoneg on, és ráhagyod.

láttam már olyan hálókártyát, ahol a drót két végén az automatikus egyeztetés engedélyezése és tiltása nem egyforma volt, és ettől széthullott a kommunikáció.

A 10/100-as probléma megoldva:
Nem a kábel, hanem a hálókari volt a ludas.
Tettem bele egy másik 10/100-ast, amit először eth2-nek ismert fel (teljesen jogosan, hiszen más a mac address), de már akkor is 100 full-on, és miután az udevben átírtam az új kártya mac-jét, mostmár eth0-ként megy újra!

A samba hálózati meghajtó hibát sem tapasztaltam azóta, de azt még a kolleginák tesztelik. Lehet, hogy az is a hálókari miatt volt???

Ma délelőtt sikerült a raid1 tömbben kicserélnem a hibás diszket egy másikra! Szerencsére hiba nélkül lefutott, és a resync is megvolt, sőt, azóta már több reboot is volt, hiba nélkül indult a Debian!

Köszönöm mindenkinek, aki hozzásegített az első raid1 javításomhoz!

Sanyi