Nincs szerencsém a Dell szerverünkkel.
Ma Debian 7 telepítés közben az "E1810 HDD 0 Fault" üzenet jelent meg az LCD kijelzőn, továbbá a HDD led sárgán villog.
2011. novemberében hasonló hiba miatt már cserélték a szerver 0. HDD-jét (előzmény itt), tehát ez egy alig 2,5 éves HDD. Egy kicsit furcsállom, hogy ugyanabban a keretben újra tönkrement a HDD.
Ami fontos lehet:
- A szerver 3 éves garanciája valamikor 2012. februárjában lejárt.
- A szervert 3x újraindítottam, a hibaüzenet maradt.
- OMSA Live dvd-t futtattam, megtudtam, amit az LCD-re is kiír: a 0. HDD Fault.
- A szerverben 4 db HDD van RAID5-ben; ebből mind aktív diszk-ként van beállítva, tartalék diszk nincs beállítva.
- Sajnos a polcon sincs tartalék HDD.
- A szerver kb. 2 hónapja volt takarítva, csatlakozókat szerintem jól visszadugtam.
- A szerver RAID kártyájában nemrég volt cseréve az akku.
- De az akku csere előtt többször "leállt" a szerver, mert hibás volt szünetmentes és a kismegszakító is, így az szünetmentes öntesztje során, a szerver alól "ki lett húzva a talaj".
Kérdéseim:
- A 2011 novemberében garanciálisan cserélt HDD esetén újraindult a 3 éves garancia?
- Van értelme megpróbálkozni egy újraépítéssel a hibásnak jelölt HDD-n?
- Érdemes megnézni a hibásnak jelölt HDD-t egy másik gépben, hogy szektorhibás-e?
- 6825 megtekintés
Hozzászólások
Válaszaim:
- 1. Általában a szerverre van a gari, amit beletesznek az örökli a szerver gariját. Bővebbet az tud, akitől vetted a gépet.
- 2. Semmiképpen.
- 3. Minimálisan érdemes vele foglalkozni, jó eséllyel pre-fail állapotban van.
A bónusz, simán vegyél egy másik vinyót a gépbe és ennyi. Ha 4-5db-nál több diszk van benne, akkor nem különösebben problémás, hogy meghal a diszk. Az persze gyanús lehet, hogy mindíg ugyanott.
- A hozzászóláshoz be kell jelentkezni
A korábbi hibás HDD garanciáját közvetlenül a DELL-nél érvényesítettem 2011 novemberében.
A most meghibásodott HDD ilyen, de igazából ez egy Samsung HDD, a RAID menüjébe lépve ezt is írja ki.
Nem sok esélyt láttam rá, de leellenőriztem a Samsung (Seagate) Warranty Validation oldalon, és meglepetésemre a HDD 2016. október 22-ig garanciás (ezek szerint 5 évig). Már csak az a kérdés, hogy tudom-e érvényesíteni a garanciát, és hogyan. Ugyanis a HDD-t nem mi vettük, hanem a DELL küldte garanciális cserében 2011 novemberében, de maga a szerver már nem garanciás. Ilyen esetben vajon mi a teendő?
- A hozzászóláshoz be kell jelentkezni
Seagate-nél rákérdezel, hogy tudsz e RMA-t indítani.
Ha igen -amikor visszaér- lesz egy tartalék HDD-d.
- A hozzászóláshoz be kell jelentkezni
Milyen mail címre kell írnom, hogy megkérdezzem tudok-e RMA-t indítani?
- A hozzászóláshoz be kell jelentkezni
Nem, nem, nem.
- A hozzászóláshoz be kell jelentkezni
Ezt már szinte biztosan buktad, mindenesetre érdemes frissiteni a raid controller és a hdd firmware-t, ha megérkezik az új diszk.
Elképzelhető, hogy egy újabb firmware nem dobta volna ki ezt a diszket.
- A hozzászóláshoz be kell jelentkezni
Ma reggel frissítettem a BIOS-t, a hálókártya firmware-t és a RAID firmware-t.
A jó HDD-k esetén is lett volna firmware frissítés, de azt nem engedte frissíteni, mivel a RAID tömb degraded állapotban van.
- A hozzászóláshoz be kell jelentkezni
Ha ma 12:00-ig megrendelem az új HDD-t, akkor holnap megérkezik.
A szerverben lévő 3 db jó HDD ilyen: Seagate ST3500320NS Leírás itt:
Leggyorsabban ezt tudják a beszerezni: WD5003ABYZ Leírás itt
Azt mondják, hogy ez a HDD 99%, hogy kompatibilis a másik 3 darabbal és nem lesz vele gond.
Amit én látok:
- Fizikai méreteik megegyeznek, tehát a keretbe bele fog férni.
- Mindkettőben 976,773,168 szektor van, szektoronként 512 byte.
- Szerver HDD
Véleményetek szerint jó lesz ez nekem?
Egy DELL szakszerviz tudna szállítani egy másik HDD-t (valami 50072 SATA 3010). Ez nagy valószínűséggel a DELL Optiplex 3010 PC-kkel szállított HDD. Én ettől egy kicsit tartok.
A DELL által hivatalosan ajánlott HDD szállítási ideje 2-6 hét, erre most nincs idő.
- A hozzászóláshoz be kell jelentkezni
Szerintem jo, nekunk anno 300-as SAS halt, meg de hirtelen csak 400G-st tudtunk keriteni beraktunk azt, ment tovább. Szóval ha nem kisebb a disk és hasonlóak a paraméterek pl rpm, akkor nagy gond nem lehet, max bukod a méreten felüli helyet.
Fedora 20, Thinkpad x220
- A hozzászóláshoz be kell jelentkezni
Ami eltér, hogy a WD-ben 64MB a cache, a másik háromban pedig csak 32MB. De ha jól sejtem, akkor ez nem probléma.
- A hozzászóláshoz be kell jelentkezni
nem, főleg ha a raid vezőrlőben le van tiltva a disk-cache.
Fedora 20, Thinkpad x220
- A hozzászóláshoz be kell jelentkezni
Erre vonatkozólag nem láttam opciót a RAID menüjében.
És ha jól látom, akkor a WD egy tányéros a Seagate pedig 2.
De ha jól sejtem, akkor ez sem probléma.
- A hozzászóláshoz be kell jelentkezni
Nem mivel ezek rejtve vannak a vezerlő felől, ezeknek az elérési időkben lesz majd meg a látszatja.
Elvileg pedig van opció a disk cache ki/be kapcsolására, majd meglesem.
Fedora 20, Thinkpad x220
- A hozzászóláshoz be kell jelentkezni
Köszönöm a megerősítést.
Egy db WD5003ABYZ megrendelve, elvileg holnap megérkezik.
Lehet, hogy nem voltam elég figyelmes, majd ha leállítom a szervert, akkor megnézem én is.
Akkor sincs probléma, ha a disk cache engedélyezve van?
- A hozzászóláshoz be kell jelentkezni
szerintem nincsen
Fedora 20, Thinkpad x220
- A hozzászóláshoz be kell jelentkezni
PowerEdge 2900 III szerverbe kell, az viszont nem szerepel a kompatibilitási listán.
- A hozzászóláshoz be kell jelentkezni
Megérkezett az új HDD, holnap reggel csere.
Már csak abban segítsetek, hogy ne csináljak hülyeséget a csere során.
Igaz a HDD-t működés közben is "ki lehet húzni és cserélni", de ezt én semmiképpen sem szeretném. Leállítom, van idő az offline cserére, újraépítésre.
Mivel nem naponta csinálok ilyet, ezért nem túl sok tapasztalatom van ezzel kapcsolatban, továbbá nem vagyok benne biztos, hogy az előző alkalommal jól csináltam ezért jó lenne egy leírás azoktól, akik gyakran csinálnak ilyet, hogy is kell ezt szabályosan csinálni.
- A szerver LCD kijelzőjén az "E1810 HDD 0 Fault" üzenet jelenik meg, tehát (The SAS subsystem has determined that hard drive 0 has experienced a fault.).
- A szerveben ez van: PERC 6/i Internal RAID Controller Card (256MB cache, battery backup)
- A szerveben SATA HDD-k vannak.
- A hibás HDD még nincs Offline állapotban, ha jól emlékszem, akkor Failed jelenik meg RAID menüben a hibás HDD-nél. De ezt reggel megnézem.
Tehát mi a hibás HDD cseréjének a menete:
- szerver újraindítása, belépés a RAID menübe
- ...
- a hibás HDD Offile állapotba kapcsolása
- ...
- (a szerver leállítása)
- a hibás HDD cseréje a jó HDD-re
- (szerver újraindítása, belépés a RAID menübe)
- ...
- A hozzászóláshoz be kell jelentkezni
Lekapcs, HDD kivesz, betesz, bekapcs, rebuild.
- A hozzászóláshoz be kell jelentkezni
A csere előtt biztos, hogy nem kell a hibás HDD-re "Force Offline"-t beállítani (ezzel távolítom el a VD-ből)?
Majd a behelyezett jó HDD-re "Force Online" és azután a "Rebuild"?
- A hozzászóláshoz be kell jelentkezni
Látni fogja hogy nincs lemez, ez nem kéne semmiféle gondot okozzon neki. Ha azt már úgyis gyanúsként vagy failed-ként kezeli akkor tök mindegy.
Ennek a hapsinak is igaza van, leállítani sem kell, sőt nem is ajánlott:
http://community.spiceworks.com/topic/314846-dell-perc-6-i-raid-1-disk-…
- A hozzászóláshoz be kell jelentkezni
Ok, meggyőztél, megfogadtam a fórumon lévő tanácsot.
Vettem egy nagy levegőt és működés közben lehúztam a hibás HDD-t. Annak rendje és módja szerint az LCD kijelzőn megjelent az "E1812 HDD 0 Removed" üzenet.
Beraktam az új HDD-t, egy kicsit gondolkodott, majd az LCD kijelzőről eltűnt a hibaüzenet.
A drive-status indicator pedig szép lassan zölden villog; rebuild folyamatban, ez 3-4 órát biztosan igénybe vesz, remélem nem lesz semmi probléma.
Köszönöm a tanácsokat és a linket.
- A hozzászóláshoz be kell jelentkezni
Ez a hardveres RAID szépsége, igyekszik minden tőle telhetőt elrejteni a rendszer és az admin elől. Általában sikerül is.
Érdemes ránézni hogy nincs e valami periódikus tesztelési rutin amit futtathatnál a lemezeken, így hamarabb megfoghat egy esetleges hibát. Szoftver RAID-nál pl. lehet hetente hosszú SMART selftest-et futtatni. HW RAID-nál a kontrollerhez adott Linux-on vagy Win-en futó konfiguráló/lekérdező szoftver tartalmaz valószínűleg ilyen opciókat.
- A hozzászóláshoz be kell jelentkezni
Annak egyébként mi értelme, ha hetente szétterheled a HDD-t egy alapos teszttel?! Lehet árt annyit, mint használ ... vélemény?
- A hozzászóláshoz be kell jelentkezni
Relatív a szétterhelés. Itthon is megy, az általam felügyelt szoftver RAID-okon is, gondot nem okozott, és a rossz szektorokat gyorsan felderíti.
- A hozzászóláshoz be kell jelentkezni
Ha jól emlékszem, akkor ezen a szerveren hivatalosan csak RedHat és SLES támogatott.
Igaz Debian 6-ra anno telepítettem RAID "kezelő" szoftvert, biztos telepíthető lenne Debian 7-re is.
Majd ha lesz időm utána nézek, egyelőre a szolgáltatások telepítése beállítása a fontos, majd az adatok vissza másolása.
Kb. 13:30-ra befejezte a diszk újraépítését.
Nemsokára kiderül hogy bírja a terhelést, kb. 500GB adatot kell visszamásolnom rá, első tesztnek szerintem ez megteszi.
- A hozzászóláshoz be kell jelentkezni
lehet en vagyok paranoias, de azert 1 backup-ot nem art ha csinal az ember, ki tudja... mert jartam ugy linux raid-del, hogy le lett cserelve mas distrora a rendszer, es md0 bol md127 csinalt.
na most az erzes amikor kiirja md0 nem talalható, és tudod, hogy nem csinaltal backup-ot és 2Tb üzleti adat... mindre ott a mastercard....
3sec suicid gondolatok
10sec felalla jarkalas
20sec meglátod meg van csak mas a neve
30sec katarzis
azota checklist 0. eleme backup
- A hozzászóláshoz be kell jelentkezni
- van teljes backup
- suicid gondolatokon már túl vagyok
- most tartok az 1 órás járkálás végén, közben kellő mennyiségű szénhidrát bevitele megtörtént :-)
- RAID manual olvasása folyamatban, sokkal okosabb nem lettem :-(
- ...
- A hozzászóláshoz be kell jelentkezni