Amikor a Global Hot Spare csak dísznek van

 ( trey | 2019. január 7., hétfő - 8:52 )

Szerk: vagy csak a GUI nem egyértelmű, az figyelmeztető üzenet pedig egyszerűen csak hiányos

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Ezek sem bírják a petárdázást? Vagy miért így év elején hullanak el? Gondolom nem vitaminhiány, vagy influenza.

122 darab merevlemezem van "csak" a storage-okban és a fő virtualizációs host szerverekben. Többségük több mint 5 éve pörög, de van olyan ami már 7 évnél is idősebb.

Meghalt lemezek száma évenként:

2017: 7 darab
2018: 9 darab
2019: 2 darab

Figyelembe véve a merevlemezek számát és korát, ez nem tudom, hogy sok-e vagy kevés.

Szerintem nem sok. Csak most egy héten belül jött kettő.

--
trey @ gépház

Gondolom megelőző karbantartás és tervezett phase-out a diszkek kihalására van ütemezve.
--
"Maradt még 2 kB-om. Teszek bele egy TCP-IP stacket és egy bootlogót. "

Már annak is örülök, hogy el tudtam érni, hogy a polcon legyen minden egyes diszkből legalább egy tartalék. Az error stat (media error, disk error, corrected error stb.) szerint több diszk meghibásodása várható, mint amennyi tartalék van.

Mivel én havi szinten leadom a kockázati jelentést, a felelősség nem az enyém. Szerencsére, ez le is van írva.

Hozzáteszem azért, hogy itt nem üzlet- és küldetéskritikus rendszerek alatti storage-ról van szó. A rajta futó tesztrendszerek minősítése "mentés nem szükséges, akár el is veszhetnek" kategória.

--
trey @ gépház

Egyébként meglett az oka, hogy miért nem küldte játékba a hot spare-t?

Még nem néztem meg a logokat. A hétfői meetingek és körbenyalogatások "fontosabbak" ;)

A rebuild lement, ez a lényeg :D

--
trey @ gépház

Na, megnéztem a logot. Valójában megcsinálta a rebuild-et a Global Hot Spare-re tegnap délre, csak a GUI fasz, akkor is "error" állapotot írt "degraded" helyett az egész storage-ra, ha a GHS aktív volt. Valószínűleg azért, mert volt "failed" komponens. Szóval működött, csak a logokat kellett kitúrni ahhoz, hogy szemmel jól látható legyen.

Alarm	        2019-01-07 09:00:37 	M	A3820000 	RAID Group#0000 normal end of Copyback processing	
Alarm	        2019-01-07 07:40:59 	M	A3420000 	RAID Group#0000 start procedure of Copyback processing	
[...]
Alarm	        2019-01-06 12:02:13 	M	A0810000 	RAID Group#0000 normal end of Rebuild processing	
Alarm	        2019-01-06 10:43:32 	P	81400002 	HDD 2.5 DE#00-Disk#2(SAS 450GB 10krpm RAID6) Fault 	
Alarm	        2019-01-06 10:43:32 	M	A0410000 	RAID Group#0000 start procedure of Rebuild processing

--
trey @ gépház

Elfelejtett automatikus rebuild nálunk klasszikus eset.
Szintén elpatkolt diszk az adáslebonyolító gépben szintén év elején. A tartalék diszkhez meg hozzá se szagolt. A raid vezérlő webes felületén persze kipipálva az auto-rebuild, de úgy tűnik csak dísznek van ott. Azon viszont meglepődtem, hogy legalább a riasztást most az egyszer sikerült elküldenie e-mailben:)
Pár hónapja egy Thecus NAS is ugyanezt játszotta el.

-------------------
https://onlinestream.hu/ - A legtöbb magyar rádió és TV egy helyen!