( zeller | 2018. 09. 27., cs – 18:15 )

Azt a két diszkes felállást gondold át - most is két diszked halt le... A melegtartalék csak akkor megoldás, ha sok kisebb diszked van, és ha van idő szinkronizálódni. Ez 2-3TiB diszkeknél már erősen necces.
A SMART adatok szerint nincs hiba az egy dolog, a vezérlő valamiért kihajította a diszkeket a tömbből. Ha kiderül, miért történt, talán okosabbak leszünk, bár az adatok szempontjából szinte mindegy.

Saját sztori. Intel szerver, hardveres raid-vezérlőn négy kommersz ssd, raid10-ben. Olyan 3-4 hetente egymás után kihajigálta a vezérlő az ssd-ket a tömbből (legfeljebb negyedórás időközökkel!), hogy hardver döglött, kuka. Sima reboot után se látta a raid bios a meghajtókat, csak táp ki/vissza után - akkor viszont simán össze lehetett rakni a ~10-15 perccel azelőtt a vezérlő szerint döglött meghajtókból a tömböt, amin gyakorlatilag egy fsck kellett, és nagyjából minden a helyére került. Volna, ha nem egy replikált adatbázis alatt történt volna mindez, mert a replikációból kieső idő (táp ki/vissza, tömb összerakás távolról ip-konzolon félgarfikus raid-biosban...) miatt érdemesebb volt a replikát ismét felépíteni nulláról.

Ott a megoldás az lett, hogy a kommersz ssd-ket kicserélték Intel meghajtókra...

Másik sztori: 8x2TiB, RAID5-ben (ez szoftveres raid volt), majdnem telepakolva logokkal. Egy diszk kiesett, hot spare volt, rebuild, aztán pár perc, és egy másik is kiesett, majd egy harmadik is, úgyhogy a tömb ment a kukába. A kiseő diszkek nem, tesztelés után prímán mentek még tán a gép évekkel későbbi "lebontásáig". Persze a RAID5 helyett RAID5 tömb lett összerakva - a kisebb kapacitás nem volt gond, mert nem volt olyan mentés (illetve az a gép volt a mentés...), amit vissza lehetett/kellett volna tölteni.

A legmorbidabb sztorit viszont a HP követte el: OS raid tükörbe rakott lemezeken. Az egyik lemez elkezdte szórni a hibákat, egyeztetett időpontbanjött a mérnök a cserediszkkel, elkezdte a munkát, aztán... a dolog vége egy újratelepítés lett, mert a csere folyamán a tükör még működő párján is megsérültek az adatok (ja... a szinkronizálást nem a régiről az új diszkre indította el...).