Diszk fail

Ma a napom jó részét eltöltöttem egy döglődő lemezzel. Nem adta meg magát teljesen a rohadék, hanem sunyi módon, random időközönként egy pillanatra megállt, majd elindult. A vezérlő ilyenkor - biztos ami biztos - reset-elt egyet. Ilyenkor a RAID-ben levő párja is megszomorodott ideiglenesen. Ez azt okozta, hogy 5-8 percenként az OS gyakorlatilag megfagyott, majd miután a vezérlő nyomott egy reset-et, akkor ment tovább, mintha mi sem történt volna. Az egészben az a szép, hogy az Insight Manager egy rohadt kukkot sem szólt az egészről. Szerinte minden szép és jó volt a rendszerben. Zöld volt minden indikátora. Nem hogy vöröset, de még sárgát sem jelzett.

Mivel a logokban azért volt utalás a reset-re (lsi_sas - The driver detected a controller error on \Device\RaidPort0), odamentem a géphez és elkezdtem hallgatózni, hogy mi lehet. Így kiderült, hogy az egyik diszk szarakodik. Ezután már alaposabban megnézve látszott (nem az Insight Manager-ben, hanem a vezérlő gyártójának 3rd party programjában) hogy a vezérlőn túl sok a reset (Phy Reset Problem Count 1267902). De a RAID-re ez is azt írta mint az Insight Manager, hogy minden OK.

Tipikusan olyan probléma, ami távolról nem állapítható meg 100% biztosan, csak sejteni lehet. Viszont fizikailag szemügyre véve azonnal látni (és főleg hallani), hogy mi a hiba.

A rossz lemez eltávolítása után a controller reset problémák eltűntek. Az élet megy tovább, viszont

HP 146GB 15K rpm SAS fail #2
most kis társai szomorkodnak elhullott társuk miatt...

HP 146GB 15K rpm SAS fail #1
A halott

(PS: nincs valakinek elfekvőben egy ilyen diszkje eladó? :)

Hozzászólások

lehet tenyleg van abban vlmi amikor rosszakat mondanak a hw raidekrol :]

Igen, ez a jó megoldás !
Itt 2 diszk is megállhat , az adatok túlélik.
Ráadásul egyszerű a mentésről gondoskodni , mert leállítasz egy diszket , kiveszed és az a backup.
Azon kívül a sok szálú olvasást is szépen gyorsítja.
Nincs többlet költség a RAID1 2 diszk + 1 spare konfigurációval szemben.

Neked legalább túlélte a rendszer... Négy Kingston SSD-ből négyet hajított ki valamelyik nap a raid-vezérlő egy gépben (és ez nem az első alkalom, szinte biztos, hogy a kiírt adatmennyiségtől függ, hogy meddig bírja az adott kombináció, mert egy reboot után hibátlannak látja a diszkeket, és működik is a cucc), úgyhogy lehetett újraépíteni az adatbázist rajta...
Szerencsére holnap négy Intel SSD megy a helyükre.

Nincs TRIM támogatás , és garbage collector.
Van viszont SSD Guard , ami a fene tudja mit takar , de szép hangzatos.
http://75.126.99.220/showthread.php?t=1502231
Lehet ,hogy érdemes volna olyan SSD-vel próbálkozni aminek a vezérlője maga intézi ezt a feladatot.
Pl:Toshiba T6UG1XBG, JMicron JMF618