E1810 HDD 0 Fault - PowerEdge 2900

Nincs szerencsém a Dell szerverünkkel.
Ma Debian 7 telepítés közben az "E1810 HDD 0 Fault" üzenet jelent meg az LCD kijelzőn, továbbá a HDD led sárgán villog.

2011. novemberében hasonló hiba miatt már cserélték a szerver 0. HDD-jét (előzmény itt), tehát ez egy alig 2,5 éves HDD. Egy kicsit furcsállom, hogy ugyanabban a keretben újra tönkrement a HDD.

Ami fontos lehet:

  • A szerver 3 éves garanciája valamikor 2012. februárjában lejárt.
  • A szervert 3x újraindítottam, a hibaüzenet maradt.
  • OMSA Live dvd-t futtattam, megtudtam, amit az LCD-re is kiír: a 0. HDD Fault.
  • A szerverben 4 db HDD van RAID5-ben; ebből mind aktív diszk-ként van beállítva, tartalék diszk nincs beállítva.
  • Sajnos a polcon sincs tartalék HDD.
  • A szerver kb. 2 hónapja volt takarítva, csatlakozókat szerintem jól visszadugtam.
  • A szerver RAID kártyájában nemrég volt cseréve az akku.
  • De az akku csere előtt többször "leállt" a szerver, mert hibás volt szünetmentes és a kismegszakító is, így az szünetmentes öntesztje során, a szerver alól "ki lett húzva a talaj".

Kérdéseim:

  1. A 2011 novemberében garanciálisan cserélt HDD esetén újraindult a 3 éves garancia?
  2. Van értelme megpróbálkozni egy újraépítéssel a hibásnak jelölt HDD-n?
  3. Érdemes megnézni a hibásnak jelölt HDD-t egy másik gépben, hogy szektorhibás-e?

Hozzászólások

Válaszaim:
- 1. Általában a szerverre van a gari, amit beletesznek az örökli a szerver gariját. Bővebbet az tud, akitől vetted a gépet.
- 2. Semmiképpen.
- 3. Minimálisan érdemes vele foglalkozni, jó eséllyel pre-fail állapotban van.

A bónusz, simán vegyél egy másik vinyót a gépbe és ennyi. Ha 4-5db-nál több diszk van benne, akkor nem különösebben problémás, hogy meghal a diszk. Az persze gyanús lehet, hogy mindíg ugyanott.

A korábbi hibás HDD garanciáját közvetlenül a DELL-nél érvényesítettem 2011 novemberében.

A most meghibásodott HDD ilyen, de igazából ez egy Samsung HDD, a RAID menüjébe lépve ezt is írja ki.

Nem sok esélyt láttam rá, de leellenőriztem a Samsung (Seagate) Warranty Validation oldalon, és meglepetésemre a HDD 2016. október 22-ig garanciás (ezek szerint 5 évig). Már csak az a kérdés, hogy tudom-e érvényesíteni a garanciát, és hogyan. Ugyanis a HDD-t nem mi vettük, hanem a DELL küldte garanciális cserében 2011 novemberében, de maga a szerver már nem garanciás. Ilyen esetben vajon mi a teendő?

Ezt már szinte biztosan buktad, mindenesetre érdemes frissiteni a raid controller és a hdd firmware-t, ha megérkezik az új diszk.
Elképzelhető, hogy egy újabb firmware nem dobta volna ki ezt a diszket.

Ha ma 12:00-ig megrendelem az új HDD-t, akkor holnap megérkezik.

A szerverben lévő 3 db jó HDD ilyen: Seagate ST3500320NS Leírás itt:

Leggyorsabban ezt tudják a beszerezni: WD5003ABYZ Leírás itt
Azt mondják, hogy ez a HDD 99%, hogy kompatibilis a másik 3 darabbal és nem lesz vele gond.

Amit én látok:

  • Fizikai méreteik megegyeznek, tehát a keretbe bele fog férni.
  • Mindkettőben 976,773,168 szektor van, szektoronként 512 byte.
  • Szerver HDD

Véleményetek szerint jó lesz ez nekem?

Egy DELL szakszerviz tudna szállítani egy másik HDD-t (valami 50072 SATA 3010). Ez nagy valószínűséggel a DELL Optiplex 3010 PC-kkel szállított HDD. Én ettől egy kicsit tartok.

A DELL által hivatalosan ajánlott HDD szállítási ideje 2-6 hét, erre most nincs idő.

Megérkezett az új HDD, holnap reggel csere.
Már csak abban segítsetek, hogy ne csináljak hülyeséget a csere során.
Igaz a HDD-t működés közben is "ki lehet húzni és cserélni", de ezt én semmiképpen sem szeretném. Leállítom, van idő az offline cserére, újraépítésre.
Mivel nem naponta csinálok ilyet, ezért nem túl sok tapasztalatom van ezzel kapcsolatban, továbbá nem vagyok benne biztos, hogy az előző alkalommal jól csináltam ezért jó lenne egy leírás azoktól, akik gyakran csinálnak ilyet, hogy is kell ezt szabályosan csinálni.

  • A szerver LCD kijelzőjén az "E1810 HDD 0 Fault" üzenet jelenik meg, tehát (The SAS subsystem has determined that hard drive 0 has experienced a fault.).
  • A szerveben ez van: PERC 6/i Internal RAID Controller Card (256MB cache, battery backup)
  • A szerveben SATA HDD-k vannak.
  • A hibás HDD még nincs Offline állapotban, ha jól emlékszem, akkor Failed jelenik meg RAID menüben a hibás HDD-nél. De ezt reggel megnézem.

Tehát mi a hibás HDD cseréjének a menete:

  1. szerver újraindítása, belépés a RAID menübe
  2. ...
  3. a hibás HDD Offile állapotba kapcsolása
  4. ...
  5. (a szerver leállítása)
  6. a hibás HDD cseréje a jó HDD-re
  7. (szerver újraindítása, belépés a RAID menübe)
  8. ...

Látni fogja hogy nincs lemez, ez nem kéne semmiféle gondot okozzon neki. Ha azt már úgyis gyanúsként vagy failed-ként kezeli akkor tök mindegy.

Ennek a hapsinak is igaza van, leállítani sem kell, sőt nem is ajánlott:
http://community.spiceworks.com/topic/314846-dell-perc-6-i-raid-1-disk-…

Ok, meggyőztél, megfogadtam a fórumon lévő tanácsot.
Vettem egy nagy levegőt és működés közben lehúztam a hibás HDD-t. Annak rendje és módja szerint az LCD kijelzőn megjelent az "E1812 HDD 0 Removed" üzenet.

Beraktam az új HDD-t, egy kicsit gondolkodott, majd az LCD kijelzőről eltűnt a hibaüzenet.
A drive-status indicator pedig szép lassan zölden villog; rebuild folyamatban, ez 3-4 órát biztosan igénybe vesz, remélem nem lesz semmi probléma.

Köszönöm a tanácsokat és a linket.

Ez a hardveres RAID szépsége, igyekszik minden tőle telhetőt elrejteni a rendszer és az admin elől. Általában sikerül is.

Érdemes ránézni hogy nincs e valami periódikus tesztelési rutin amit futtathatnál a lemezeken, így hamarabb megfoghat egy esetleges hibát. Szoftver RAID-nál pl. lehet hetente hosszú SMART selftest-et futtatni. HW RAID-nál a kontrollerhez adott Linux-on vagy Win-en futó konfiguráló/lekérdező szoftver tartalmaz valószínűleg ilyen opciókat.

Ha jól emlékszem, akkor ezen a szerveren hivatalosan csak RedHat és SLES támogatott.
Igaz Debian 6-ra anno telepítettem RAID "kezelő" szoftvert, biztos telepíthető lenne Debian 7-re is.
Majd ha lesz időm utána nézek, egyelőre a szolgáltatások telepítése beállítása a fontos, majd az adatok vissza másolása.
Kb. 13:30-ra befejezte a diszk újraépítését.
Nemsokára kiderül hogy bírja a terhelést, kb. 500GB adatot kell visszamásolnom rá, első tesztnek szerintem ez megteszi.

lehet en vagyok paranoias, de azert 1 backup-ot nem art ha csinal az ember, ki tudja... mert jartam ugy linux raid-del, hogy le lett cserelve mas distrora a rendszer, es md0 bol md127 csinalt.

na most az erzes amikor kiirja md0 nem talalható, és tudod, hogy nem csinaltal backup-ot és 2Tb üzleti adat... mindre ott a mastercard....

3sec suicid gondolatok
10sec felalla jarkalas
20sec meglátod meg van csak mas a neve
30sec katarzis

azota checklist 0. eleme backup