Gyanus hardware hibak

Fórumok

Sziasztok!
A kovetkezo tortenet: Intezetunkben az utobbi ket honapban sorozatos hardver meghibasodasokat tapasztalunk. A diagnozis minden esetben az, hogy nehany gep HHDjerol torlodnek a particiok. Az esetek nagyobbik reszeben annyira torlodnek, hogy semmifele backup program nem latja a regi particiokat. (tesdisk es gpart programokkal probaltam, egyszer - ketszer a testdisk vissza tudott hozni nehany prticiot, de ujabban mar nem).

Ami gyanus az az, hogy a jelenseg elofordult mar windowsos es linuxos gepeken is, adott gepben egy vagy ket harddisskkel is ugyanabban a gepben (amikor is mindket teljesen kulonbozo hdd-n eltuntek a particiok), teljesen kulonbozo tipusu alaplapokkal es diskekkel.

Felmerult, hogy esetleg az elektromos halozatban fordulnak elo csucsok vagy kimaradasok, ambar volt olyan is, hogy egy kikapcsolt gep harddiskjerol tuntek el a particiok.

Felmerult rossz indulatu ember tenykedese is, mert most hetvegen, amikor is ujabb esetek fordultak elo, valaki kikapcsolta a sajat megfigyelo kamerankat. Ugyanakkor elkepzelheto, hogy az is a fent emlitett elektromos okbol kapcsolodott ki. Masreszt az az erzesem, hogy nem olyan egyszeru annyira torolni egy diskrol a particios tablat, hogy a testdisk es a gpart se talaljon egyaltalan semmit. (Ebben legyszi erositsetek vagy cafoljatok meg.) Es meg annyit, hogy az ajttonyitasok logjai szerint nem jart senki a kerdeses idoszakban a szobainkban.

Szoval minden otletet szivesen fogadok, hogy hogyan is kellene nekilatni ennek az esetnek, mert sok sok munkank alatt rezeg a lec, mert minden esetben sok idot vesztunk a rendszerek ujrainstallalasaval, esetleg elveszett eredmenyek ujragyartasaval. Szoval help pliz!!!

Csaba

Hozzászólások

Pontosan milyen szerverek? (főleg a tápok miatt) Van bármilyen túlfeszültség védelem vagy akár szünetmentes a gépek előtt? Több típusú HDD-vel is előfordult? Helyezzetek el egy teljesen független és titkos monitoring rendszert, amiről csak Te tudsz (maximum ketten a kollégáddal együtt, de akkor már nem titok) ha pedig kérdik hogy mi az a plusz vagy épp mit hegesztesz akkor tesztrendszer, mentés stb... A monitoring figyeljen mindent, amit a többi is. Ha adatvesztés után esetleg eltérés van a két monitoring adatai között, akkor máris előrébb vagy. Nem tudom mennyire figyelitek a szervereket, de ipmi -vel szerelt darabok esetén lehet mindenféle cuccot figyelni rajtuk pl. feszültségek. A gépek nem indulnak újra az ilyen partició felejtéses esetekben? Ha túl nagy vagy túl kis áram érkezik akkor a tápok inkább hajlamosak egy rebootra vagy kikapcsolásra, bár lehet hogy valami frekvenciás vagy fázisos "játék".

Az a helyzet, hogy ezek nem szerverek, hanem munkagepek (desktop), amin a kutatok dolgoznak. A szervereink meg a klaszterunk az epulet egy masik reszeben elzart helyen vannak, egyreszt oda csak ket embernek van kulcsa, masreszt az feltehetoen masik elektromos loopon van.

Az asztali gepek nincsenek szunetmentesen, viszont bizonyos konnektorok az epulet fenntartoja szerint tulfeszultsegvedettek (ATK jelolessel), es ebbe vannak csatlakoztatva a gepek. Viszont tobben ketelkednek, hogy valoban vedettek e.

A gepek valoban megprobaltak ujraindulni a particio felejtes utan, termeszetesen csak egy insert boot disk uzenet fogadja ilyenkor a felhasznalot.

Csaba

Akkor a gépek X részéhez szerezzetek APC, MGE vagy más normális feszkóvédőt (ezek általában 6 csatalkozós kivitelben mennek, úgyhogy egy ilyen két-három masinát elvisz). A feszkóvédők nagy részén van led (UPS-ek sípolnak vagy villognak gyártófüggően) ami kijelzi, hogy van-e földpont a konnektorban, ez is hasznos infó lehet. Másik lépés két kamera felszerelése, egyik elrejtve a másik meg jól látható helyre felrakva. Gondolom a kutató juzerek valamiféle munkarend szerint dolgoznak, viszont a gépek 0-24 mennek gondolom. A kutatóknak adjátok ki, hogy ne kapcsolják ki a gépeket. A gépeket pedig smokeping vagy egyszerűbben egy perl-es icmp-pinggel (Net::Ping::External) 5 percenként megnézed és küldesz róla emailt (Mail::Sender).

Anno IBM XSeries 2xx es vasakkal volt hasónló problémám anno az IBM még a nem garis eszközöket is cserélte.
A kondik kipukadtak a lapon.
De azóta már ASUS lappal is jártam igy....

Szervusz!

Megállt az ütő bennem, mikor olvastam. én is rendszergazda vagyok, és nagyon nem tudom, hogy hasonló esetben mit is tennék. Azért egy-két ötletem lenne:

1/ ahol megoldható, tedd rack-ba a hdd-ket, és kikapcs után pedig rack-kihúz. Mivel kutatókkal dolgoztok, azok legalább nem r=1 userek, így megértik, hogy kikapcs után tényleg ki kell húzni a rack-et (és kezelni is tudják és fogják).

2/ írtad, hogy nem azonos "elektromos loop"-on van a szerverrel. Ha nem túl nagy a távolság akkor abból a loop-ból kéne néhány hosszabbítóval betápolni a gépeket, amin a szerver is van. Persze lehet, hogy ez rizikósabb, illetve ha az SzMSz-etek tiltja, akkor ab ovo.

3/ esetleg valami farraday-kalickás dolgot kéne kitalálni a gép köré. Tudom van gépház, de az nyitott az elején (műanyag borítás!).

4/ gondolom azért achiváltok rendesen szerver-szinten, de ha be tudtok egy kevset ruházni egy nagyobb hdd-re, akkor le lehetne dd-zgatni az összes júzer partíciót is, nyilván nem napi szinten, mert az fizikai képtelenség, de egy biztonsági másolatot megér. ez user_szám*átlagos_partícióméret függő

5/ meg lehetne próbálni valami túlfeszültségvégő cuccot egy-két gépen. Az, hogy állítólag túlfesz.védett nem mond sokat. Én akár egy szakértő segítségével átnézném az elektromos hálózatot. (nem a tervrajzokat!)

Nem vagyok egy nagy szaki, talán van használható, amit írtam.
Kíváncsi leszek a megoldásra. Sok sikert!

/mazursky

Tovabbi felreertesek elkerulese vegett: en itt nem rendszergazda vagyok, hanem egy a kutato userek kozul. Csak eppen a rendszergazdank tehetetlenul vonogatja a vallat, pedig amint hallom, a hetvegen harom gep fekudt meg ezen a modon (sajnos az enyem volt az egyik)....

Szernecsere napi backup megy minden geprol, ugyhogy most csak a rendszert kell visszaraknom, meg az extra szoftvereimet telepitenem, ami viszont el fog venni ket harom napot. Csak hat ugye mindez az evvegi hajra kozepen.

Tovabba a sajat gepem vedelmebe be fogok rakni egy UPSot.

Csaba

1-2 esetben még el tudom képzelni, h eltűnik esetleg tápfesz miatt a hdd teljes tartalma, de sorozatosan? Még azt is nehezen, h mágneses valami miatt is ez megtörténjen. Ennyi véletlen IMHO nincs, fullra azért pont a vinyók nem jellemzően törlődnek, főleg sorozatban, különböző típusok.

Nem lehet, hogy valamelyik kollega titokban kifejlesztett egy hdd/hddvezérlő bizgerélő bioizét? :)

Bocs más tippem nincs erre, a csernobil vírus lenne még, de linuxos gépet is említettél.. (esetleg szabotázs)

Mindenekelott erdemes lenne legalabb heti szinten dvd backupot csinalni, es/vagy erre a celra egy szervert hasznalni...

Még mindig nincs eredmény, pedig már egész csapat keresi a hibát, jelenleg az elektromos hálózat mindenféle karakterisztikáját vizsgálgatják.
Pedig csak az elműlt héten tíz gépünk halt be két menetben.
Ha bárki hallot ilyesmiről, lécci ne tartsátok vissza az infót.
Köszi...
Csaba

Nincs egy titkárnő, aki ráteszi a retiküljét a gépekre benne egy bazi nagy mágnessel?
De tényleg.

Üdv,
Dw.
"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

Esetleg egy alulfizetett takarító, aki tud dd-zni?

1. valami boot-vírus nem lehetséges?
2. biosfrissítés volt (lehet hogy az uj frissítés szétszedi) ?
ezek tippek
---
linux alatt használj gpt paticios táblát, ennek a hdd végén van egy másolata

linux v2.6.22.15 + madwifi v0.9.3.3-mal itt
debian gnu/linux @ linux-2.6.22.18-rc0-szami1

fogalamam sincs, hogy van e, max ha az etherboot nincs letiltva az alaplapokban, akkor lehet hogy van valami pxe-boot vírus, de erre az esély szerintem közelít a nullához

de a fentebbit szeritem próbáld ki, hogy msdos partitiós tábláról átváltasz GPT-re

linux v2.6.22.15 + madwifi v0.9.3.3-mal itt
debian gnu/linux @ linux-2.6.22.18-rc0-szami1

nem tudom mit kellene mérni. :(
azért gondoltam erre, mivel egy külső, viszonylag erős mágneses térrel operáló hordozható eszközre gondoltam, ami olyankor működik amikor a kollégák nem dolgoznak. Ennek a porszívó pont megfelel. A jóindulatú takinéni alaposan letakarít mindent a gép mellet...

Szerintem az elektromos mező felejtős. legalábbis a kamerát nem kapcsolhatja ki, vagy de?
Ha User, vagy Virus csinalja az lehet kideritheto avval ha az egyik gepben nem magneses adattarolo van... hanem pl SSD.
Rackwinyo + pancelszekreny kombinacio is jol vedheti az adatokat a hasonlokkal szemben.
Használtok még Floppyt? Boot Virus miatt kérdem.. mert amennyire én tudom azok azon szeretnek terjedni, és számomra elképzelhető hogy valamilyen lowlevel technikával darálja le egy virus a winyot.. teljesen oprendszer függetlenül.

Meg amit irtam Installalt winyorol dd-vel masolat.. es akkor gyors az ujratelepites.

Amugy a hibák mindig éjel jelentkeznek? fölöttetek/Alattatokmikor dolgoznak?

__________
"It's nice to be important, but it's more important to be nice"

Floppy már nincs, mióta itt dolgozom, nem is láttam.
Az épületrészünket a gondok szaporodása óta éjjeli őrség meg videokamera őrzi. Fizikai behatolást szerintem kizártnak tekinthetjük.

Szóval mégiscsak valami technikai okra kellene visszavezetni a jelenséget. Az elektromos hálózat karakterisztikáit mérik mostmár. Mivel pénteken, a mérés ideje alatt ismét volt egy "leállás", holnap, amikor jönnek csekkolni a mérési eredményt az áramszolgáltatótól, ki fog derülni, hogy ott látnak e valami rendelleneset.

Most már a mi egységünknél egyel nagyobb IT gárda is ezen a dolgon agyal, úgyhogy előbb utóbb csak kisütik, hogy mi a baj. Majd írok ha kiderül.

Fölöttünk/alattunk tudtommal/tudtunkkal irodák vannak. Éjjel nem dolgoznak ott, és nem tudunk nagy teljesítményű (mr, vagy hasonló) gépekről.

Csaba

Egy cimborámmal történt meg az eset hogy a gépében egy 120Gb-os seagate wincsiről eltűnt egy patrició, nem lehetett visszaállítani ezen egy xp+süsü volt, xp halt le, gondoltuk pillanatnyi elmezavara volt a wincsinek.
Második eset fél év múlva ugyaz a wincsi ugyanez a történet,csak akkor már egy rendszer volt rajta (xp) egy patrició eltűnt egy pedig sérült, visszaállítani nem lehetett.
Harmadik, itt már csak adattárolásra volt használva szintén úgy fél évre az előző eset után egy patrició eltűnt, visszaállítással itt már nem is próbálkoztunk, illetve a két eset után olyan adatok voltak rajta amik pótolhatók .
A gép ugyanaz, ugyanazon a helyen, mellette samsung és maxtor wincsi egyikkel sem volt hasonló gond.

Üdv,

először is eléggé ilyesztő, ami történik. Nálunk a suliban most pusztult meg egy rakás router... és mi sem tudjuk, mitől.

Azon gondolkoztam, hogy a hálózatot szét kellene szedni több darabra, tüzfalasan routolni közöttük és túlfeszültség-védelmet kiépíteni, de az sem túl megbízható.

Annyit tehettek még, hogy az állandóan üzemelő gépeket monitoroztatjátok mondjuk Nagios-szal, hogy mikor halnak meg, plusz minden nem szükséges tevékenységet felfüggesztetek. A gépek kihúzása a hálózatból úgyszintén segíthet ha nem használjátok.

Még egy dolog lehet, amire gondolni tudok, lehetséges hogy gyenge tápok vannak a gépekben?

J