storage, kulso, disk hiba, reakcio

Hali,

adott egy kulso storage, ez ra van kotve egy szerverre ami nfs-en keresztul osztja az anyagot.
Teljesen szokvanyos dolog, hogy elkezdenek hullani a diszkek, viszont amit valahogy nem ertek, hogy kozben a host-okon timeoutra szalad az applikacio.
A storage-en raid array van, lehet akar mirror de akar raid5 is.

Az adatok nem tunnek el, amint a storage rajon, hogy rossz a diszk, akkor ismet hajlando a tombbol kiszolgalni.

Nekem valahogy az az elkepzelesem volt, hogy ennek nem is kellene latszodnia a host oldalrol, nem hogy ~10 masodperces timeoutra szalad.

Rosszul kepzelem?

Hozzászólások

Milyen storage, milyen diszkkel?
Normális, szerver-célokra szánt diszkekben TLER van, a kontrollernek pedig kb. 2 másodperc után ki kellene dobnia a hibás diszket.

Ott a timeout erteke meghatarozhato, legalabbis azzal amivel en talalkoztam. Ha nem, a manualban le van irva hogy mennyi az annyi.
Ertelemszeruen a host gepen is valtoztatni kell a beallitasokat, ott a timeoutnak nagyobbnak kell lennie mint ami a storage-ban van, igy level-eket letrehozva.
Igy ha gond is van, csak doccen egyet a rendszer de megy minden tovabb, elvegre a timeoutok pont ezt a celt szolgaljak

// Happy debugging, suckers
#define true (rand() > 10)

Szuper. Már vágom. :D

Dell md, sas vagy talán fc porttal és mivel hullanak a lemezek valószínűleg egy régebbi MD 3000 lehet teli 1TBs seagate lemezekkel amiket csak dell lemezre cselhetsz.

Amúgy az nem Dell, hanem LSI/Avago/Broadcom viszont nagyon sok márka alatt fut például a Dell mellett IBM, netapp.

A service tagre keress a support.dell.com oldalon. Töltsd le a DVD-s telepítőt és telepítsd egy olyan gépre ami lehetőleg egy alhálózatban van a storage.

Azon keresztül rögtön okosabb leszel. Ha nagyjából rendben van akkor egy firmware és nvram frissítés segíthet a timeout gondon.

Infó kell mert anélkül csak imádkozni tudunk.

Szerencsere/sajnos nem en vagyok most a unix admin, az applikacioert felelek. Ellenben mivel nalunk csapodik le, meg reggeben storage admin (is) voltam emc-vel, meg hitachival, ezert furcsaltam a dolgot. Anno soha semmifele jele nem volt, host oldalon, ha a raid tombben egy diszk elfaradt.

Most azt talaltak ki, hogy felemelik a timeout-ot host oldalon 16 masodpercre. Egyre jobban gyurodik a szemoldokom. Egy atlagos block read 50 milisec, valahogy nem fer a fejembe, hogy egy erre kitalalt eszkoz a diszk hibat nem tudja ennek kisszamu (<20) tobbszorose alatt detektalni, es kiszolgalni az adatokat a mukodo tombbol.

A tipusnak utana nezek, installalni nem fogunk tudni semmit, sehova, support-ot allitolag mar megkerdeztek az ugyrol, csak nem merem nagyon kapirgatni, nehogy sertodes legyen belole.

Ez ennél komplexebb lehet. A failed sector read jelzés disk és sotrage FW timeout beállítás és általában 1-5s amiből ha egymás után van sok akkor sokszor nem fog adatot visszaadni így.

Async mount és nfs server segíthet sokat rajta még a fenti mellett de mindenképpen át kell nézni egy support package-t, hogy mi okozhatta a gondot.

Felvetted már a kapcsolatot a supporttal? Storage fw frissítés létezik az eszközre?