Sziasztok!
Tortent az egyik IBM blade rendszerrel a hetvegen, hogy kb 5-6 percre eltunt alola a storage (egyelore meg nyomozzak wtf, de mindket controller egyszerre mult ki). A lenyeg, hogy ezt a blade-n (vmware 6.0) futo linuxok mind ugy eltek meg, mintha lehuztam volna a rendszerdisket, aztan par perc mulva visszadugtam volna.
Disztro (salak,debian,ubuntu kulonbozo verziok) es kernel fuggvenyeben a legkulonbozo errorokat irta dmsegbe (az sda write timeouttol a kulonbozo filerendszer crashekig bezarolag). Volt par aminel read-only lett a rendszerdisk, de nem mindegyikben. Reboot utan soknal manualis fsck is kellett, sok hibaval, volt ahol a mysql is megborult.
Ha jol sejtem, az okozta a fo problemat, hogy 5-6 percig nem tudtak irni a diskre, ezt ugyan dmesgbe logoltak de nem zavartattak magukat nagyon, es amikor visszajott a disk, akkor szepen folytattak az irast, de a kieso idoben irando adatokat mar nem irtak ki ujra. Emiatt a journalingba lyukak lettek, az sql-be hianyzo rekordok amire viszont voltak kesobb hivatkozasok stb.
Ami vicc hogy ugyanezen a vason az osszes win 2008/12 siman kibirta, csak a logban latszik hogy volt disk hiba, de egy sem allt meg, egyiken se tortent adatserules.
Mar tulvagyunk a krizisen, de mivel semmi elojele nem volt, es latszolag tenni se nagyon tudunk ellene (lehet soha tobbet nem lesz ilyen, de lehet hogy egy huzosabb munkanap elofordul megint), jo lenne valahogy felkesziteni a linuxokat erre, hogy lehetoleg kevesebb fs/sql corruptionnal eljek tul a dolgot.
Kerdes, hogy talalkozott-e mas is ilyesmivel, vagy van-e otlet arra, hogy a linuxot hibaturobbe tegyuk, hogy disk kieses eseten ne csesszen szet mindent miutan visszajott. Igen tudom hogy a linux nagyon nem birja a hardver hibakat, de valamit hatha megis lehetne tenni. Nekem is vannak otleteim (pl script ami figyeli a dmesget es ha ilyesmit lat akkor hard poweroffolja, vagy esetleg suspendeli a vm-et, de ez eleg drasztikus)
A'rpi