Robbanás és tűz a „H1 datacenter”-ben , 9000 szerver került offline :-(

Fórumok

7000 ügyfél 9000 szervere leállt, köztük az enyém is. :-(

http://tech.slashdot.org/article.pl?sid=08/06/01/1715247

Állítólag 1 nappal a robbanás után engedélyezték a tűzoltók, hogy üzembe helyezzék a tartalék áramforrásokat. Az 1. emeleti szerverteremnek a kábelezése is sérült aminek a kijavítása hosszabb időt vesz majd igénybe.
http://forums.theplanet.com/index.php?showtopic=90185

A hivatalos bejelentés szerint kigyulladt és felrobbant valami nagy elektromos cucc. Emberek szerencsére nem sérültek meg. Ügyfelek szerverei sem rongálódtak meg a tűztől és a robbanástól. A szerverközpontot órákra lezárták tűzoltók.
Számomra is kihívás a történet, számos telefonhívást kaptam már vasárnap reggel óta, hogy mi van a szerverrel...

Mik az eset tanulságai?

Hozzászólások

Ket helyen legyen szervered.

Mi a fene tud robbani ?

cöcö, ahol az évi rendszeres tájfun (vagy hogy hívják ott) útvonalán simán felhúznak 34millió, OSB lapból álló faházat... Legutóbb azért sírt a kormány, hogy legalább kontytetős legyen a túlméretezett budi, azt nem az első széllökésnél viszi el a vihar.

--
"SzAM-7 -es, tudjátok amivel a Mirage-okat szokták lelőni" - Robi.

A nagy távolságot szó szerint kell érteni. Kisebb feszültségű, 25kV-hoz képest, dolgokat (metró, hév stb.) lépten nyomon (1-3 km általában) meg kell táplálni meg trafózni kell. Városi közlekedésben meg vicces lenne ha mondjuk leszakad a 25kV, illetve szerintem jóval nagyobb berendezések is kellenének hozzá. Városban egyébként sem probléma a kisebb távolság. A 25kV-os nagyvasúti hálózat általában 25-30km-enként van táplálva tudtommal.

Abba szintén bele kell gondolni, hogy a nagy távolság pl. egy Paks - Nyíregyháza távot is jelenthet, ami azért nem piskóta. Egy távvezetékek és tsai-val foglalkozó ismerős mesélte, hogy annó épült egy 750kV-os 50Hz-es nagyfesz vezeték ukrajnától majdnem Bp-ig. A határtól az alállomásig 20%-30%-os veszteség van... Az utolsó infó szerint jelenleg használaton kívüli. :)

"egyenáramú motor inkább rövid távra jó, váltóáramú motor inkább hosszú távra"

A villamos vontatáshoz egyenáramú motort használnak javarészt. Ennek meg nem gazdasági okai vannak, hanem technikai okai. Az egyenáramú soros gerjesztésű motor nyomaték jelleggörbéja alacsony fordulatszámon a maximális. Persze a gyakorlatban egy sima sorosgerjesztésű terhelésmentes indítás könnyen tengelytöréshez vezethet, ezért inkább a vegyes gerjesztésű motor használnak, míg később kapcsolják át párhuzamos gerjesztésűre az egyenáramú vontatómotorokat.

Azt hogy adott országban mely ellátási rendszer terjedt el, javarészt az első tömegesen beszerzett mozdonyok tipusa, a földrajzi körülmények, és elektromos ellátási rendszer határozta meg. A válóáramú villamos ellátás előnye az egyszerű feszültség átalakítás, viszont hátránya az hogy a vontató gépekben kell megoldani az egyenirányítást. Az egyenáramú hálózatokban bonyolultabb villamosenergia átalakító berendezések szükségesek.
Egyenáramú rendszerekben könnyen lehet energivisszatáplálást megvalósítani, míg a váltóáramú hálózatokban ez csak bonyolult berendezésekkel lehetséges. Gondolok itt pl. a hálózati feszültség függvény és a generátorként működő fékezőmotor feszültség függvényénak szinkronba hozására.
Tényleg nem lehet a váltóáramú vagy egyenáramú hálózatra esküdni, inkább ma már a mozdonygyártók építenek több áramrendszerű gépeket. A MÁV Siemens mozdonyait is a határon kapcsolja át a mozdonyvezető manuálisan.

"egyenáramú motor inkább rövid távra jó, váltóáramú motor inkább hosszú távra"
A 3 fázisú váltóáramú motor inkább hosszú (tartós) üzemre, igénytelenesége miatt olyan helyekre jó, ahol nincsennek extrém nagy igénybevételek, viszont sok éven át kell normál üzemben működnie. Ezeknek a motornak az élettartalmát gyakorlatilag a tengelycsapágyak élettartama határozza meg.

Az 1 fázisú váltóáramú motor nem igen lenne jó egy vonat megmozdítására, hiszen még ahoz is egy segédáramkört kell kiépíteni neki, hogy a saját tengelyét megmozdítsa. Lásd a háztartási 1 fázisú gépek segédáramkörét és "indító kondenzátorát". A jelentős egyfázisú (aszimmetrikus) terhelés további szolgáltatói problémákat is okozhat az áramszolgáltató hálózatában.

Na köszönöm a pontos kifejtést :) Egy ismerősőm már elmagyarázta ezt egyszzer IRC-n, csak ehhez nem értek annyira, hogy ezt így le is írjam.

"Ennek meg nem gazdasági okai vannak, hanem technikai okai."

Igazából nekem anno ezeket úgy mondta az ismerősőm, hogy többek között azért gazdaságosabb rövid távon az egyenáram, amiket te mondtál.

Egyes mérnöki irányvonalak a mostanában divatos környezetvédelmi szempontok miatt szivesen látnának több helyen egyenáramú áramrendszerű hálózatot, viszont nálunk nincs realitása a teljes rendszer átépítésének, és a Szilik és a Gigantok leváltásának. Így egyenlőre az "áramvisszatáplálásos" energiatakarékos rendszer nálunk nem fog meghonosodni.

Én úgy tudom, hogy visszatáplálás a MÁV-nál nincs, mert a felmerült műszaki problémák megoldására nem akartak egyenlőre nagyon sokat költeni. Úgy tudom fékezőellenállásokra küldik az energiát rá. Talán úgy rémlik, hogy a BKV egyes vilamosvanalai (4-6-os) alkalmasak rá, nyilván a viszonylag sűrű villamossűrűség miatt.

Abszolult nem követtem a hazai vasút fejlesztéseit, de azt tudom hogy külföldön főleg Svájcban megoldották a dolgot. Amikor hegymenetből jön lefelé vonat, le lehet kapcsolni egy egy erőmű blokkot is :)

"A jelentős egyfázisú (aszimmetrikus) terhelés további szolgáltatói problémákat is okozhat az áramszolgáltató hálózatában."

Maga a mondat igaz, de ez mégis honnan jön? Természetesen a betáp (felsővezeték) egyfázisú... és ennek semmi köze ahhoz, hogy a motor 3 fázisú. És asszimetrikus terhelés sincs, a betáp oldalon csinálnak 3 fázisból 1 fázisú, 25kV feszültséget valahogy. A mozdonyban meg újra 3 fázist. :)

"Maga a mondat igaz, de ez mégis honnan jön? Természetesen a betáp (felsővezeték) egyfázisú... "
"És asszimetrikus terhelés sincs, a betáp oldalon csinálnak 3 fázisból 1 fázisú, 25kV feszültséget valahogy."

Persze a mondat igaz, viszont a betáp (felsővezeték) betápja 3 fázisú áramszolgáltatói hálózat, így itt már nem annyira triviális dolog ráakasztani egy trafót egy fázis és csillagpont közé, aztán hadszóljon...
Elég komplex (és költséges) feladat a terhelés függvényében optimális üzemben tartani a rendszert, úgy hogy ha áthalad egy tehervonat a szakaszon, akkor se legyen nullponti feszültség eltolódás; és ne reflektálódjon vissza meddő teljesítmény az áramszolgáltató hálózatába. Persze az asszimetrikus terhelést is kerülni kell, ami egyfázisú válóáaramú hálózati terhelések esetén nagyon nehezen kivitelezhető. A 3 fázisú csatlakozási ponttól vasútgépészeti feladat a rendszer üzemeltetése.

"A mozdonyban meg újra 3 fázist"
A mozdonyban meg egyenáramú motor van :)

A Tauban olajhűtésű főtranszformátor leledzik, ennek a primer tekercse 25kV/50Hz és 15kV/16,7Hz feszültségekhez készült (egy tekercs), a szekunder oldalon hat vontatási (1260V), két segédüzemi (344V és 200V) meg egy vonatfűtési (1000V/1500V) található. A szekunder tekercsek külön-külön megcsapolással bírnak a 15 illetve 25kV-os üzemhez.

A vontatási tekercseket vezérelt áramirányítók követik (forgóvázanként egy), amiken lógnak a három fázisú aszinkron hajtómotorok. Ezek változtatható nagyságú és frekvenciájú 3 fázisú feszültséget kapnak.

V43-ból kb. 400 db-ot gyártottak le, a 60-as évek óta.

Amik ma futkároznak, azok is 30 évesek. Nem hiszem, hogy kivonnánk őket, mert legtöbb vonal ma is 120 km/h sebességet tud. Annyit tud a szili is.

Rajka --> Győr --> Budapest az egyetlen 160-as vonal (tudtommal) az országban, ezen repesztenek Gigantok, Taurusok, de személyvonatként szilik is. Gigantot, Taurust mindenhova berakják: teher, gyors, IC.

Folyamatosan viszik a sziliket, Pestre főműhelybe, alváz, motor stb, cserére, újrafestésre.

Tehát sztem még maradnak egy darabig.

Több rendszer létezik, ezek közül a MÁV a 25kV 50Hz-es rendszert használja. A modellek meg a 6-12V DC-t :))
Ausztriában 15kV 16,7Hz a trendi, illetve egyes országokban 3kV DC-t (Cseh vasút egy része, Szlovénia, Lengyel ország, Horváth ország, Olaszország), és van ahol a 1.5kV DC -t (Hollandia, Francia vasút 5859 km hosszban, Belga vasút 2950km hosszan) használják.

Svájcban 12% lejtőkkel is meg kell hogy bírkozzanak a mozdonyok, míg idehaza másfajta igénybevételek vannak.

Jó amerikai szokás szerint (Texas!), egy helyen vannak a transzformátorok, az aggregátorok és az üzemanyag...

kiegészítés:

"In an extended power outage, on-site diesel generators at our data centers can run indefinitely. Power generators receive regular preventative maintenance to ensure the will continue to function in any emergency."

"The Planet"

Hát gondolom az, hogy nagy rendelkezésre álláshoz több egymástól távol lévő helyen elhelyezett szerverre van szükség?

1 van. Nincs 24x7. Mindig vannak balesetek.

Orok szabaly, hogy kritikus halozatot decentralizalunk, es keruljuk az adatkozpontokat.
Rendkivul csabitoak egy adatkozpont szolgaltatasai, csakhogy a szerverek ilyen mertetu osszezsufolasa, fokozott kockazatot jelent IT biztonsag tekinteteben.(Itt szo lehet egy kakukktojas elhelyezesetol kezdve, a hozzanemerto szemelyzet tevekenysegen, a konyvelesi hibakon at, egeszen a tuzesetekig bezaroan.)
--
"Maradt még 2 kB-om. Teszek bele egy TCP-IP stacket és egy bootlogót. "

A magam kisvállalkozói szintjén az adatközpontot vélem a legjobb megoldásnak még most is.

Annyiban előrelátó voltam azért, hogy a napi mentéseket scp-vel rendszeresen átmásoltam egy másik céghez, napi több GB transzatlanti adatforgalmat okozva ezzel.

Úgyhogy ha ma nem áll helyre a szolgáltatás, akkor keresek egy másik szolgáltatót és újrainstallálom a rendszert.

Szerencsére a másodlagos névszerverünk szintén másik helyen van. Így azokat a szolgáltatásokat nem érinti közvetlenül a leállás, amik domain szinten vannak más szerverekre irányítva. Pl. az egyik barátom saját telephelyére kihelyezett levelezőrendszere működik.

Ez a névszerver mizéria sztem nálunk kicsit túl van lihegve (.hu regisztráció)
Kisebb cégeknél nagyon gyakori, hogy egy szerveren fut minden szolgáltatás (web, levelezés, dns, ftp,...).

Őszintén szólva régebben én is "csaltam" (ha minden szolgáltatás egy gépen futott) úgy, hogy ns1 ns2 ugyanarra a gépre volt irányítva, sokszor még az IP is egyezett.
.hu -s ellenőrző rutin ezt a cselt már nem veszi be, de com, net, ... -ra most is működik.

Elsősorban ott van értelme 2, vagy több névszervernek, ha több egyedi gép van a domain alá szervezve , vagy nem akarnak névszervet futtatni a saját gépükön.

Egyébként kész szerencse, hogy nem vettem igénybe a The Planet "hivatalos" névszerver szolgáltatását, hanem csak a saját kis dns clusteremet használom. ui. a H1-esben lévő gépek összes(elsődleges, másodlagos, stb) névszervere bekrepált... IQ fighterek egy épületben tartották őket...

more than ciki...

...ellenben még jó, hogy a flame topicba raktad (bocs:D)
—-—-—

int getRandomNumber() {
return 4;	//szabályos kockadobással választva.
	       //garantáltan véletlenszerű.
}	      //xkcd

A nagy szamok torvenye, vagy mi miatt en mar azt "varom", hogy valami ilyesmi itthon is bekovetkezhet barmikor. Ha a VH-ban lenne, az eleg sokmindent magakasztana:-(

Azért az itthoni adatparkok sem nélkülözik az leleményes barkács megoldásokat. Pár éve az egész adatparkot bedöntötte egy hibás ügyfélgép, vagy mondhatnám az IW operátork értetlenkedését amikor a dual tápos szervert kérem hogy külön áramkörre dugják rá; és a datanetes fiúk napi szerencsejátékait a jó vagy rossz ethernet kábelekkel.

Amúgy az IW klimáinak kültéri egységeit nyári napokon, az operátorok locsolóslaggal hűtik :)

Szerencsére nem a gépek robbantak fel és égtek el. Áram nélkül meg a fenti cuccok sem sokáig működnek.

A fő gond állítólag abból adódott, hogy a tűzoltók több órára evakuálták az épületet, mindent ármaltalanítottak /áramtalaníttattak, még azt is ami működött. Az automatikusan bekapcsolt másodlagos energia ellátó rendszert is lekapcsoltatta a lánglovagok vezetője.

Az slashdoton az egyik hozzászóló egyenesen tűzoltóparancsnokot hibáztatja azért hogy a történet idáig fajult.

Igazából nem érdekel, hogy ki a hibás. Jó lenne, ha mihamarabb újra online lenne a szerverem...

Érdekes kérdésként merült fel bennem, hogy nagyobb baj esetén van-e értelme mindenféle hiper-szuper másodlagos energiaellátó rendszereknek? Ui. amikor kijönnek pl. a tűzoltók, akik nincsenek képben a rendszer architektúrájával úgyis mindent lekapcsolnak.
Kisebb üzemzavar esetén jól jön persze ez-az, de ha már kivonulnak a tűzoltók...

Kapnak nálunk pl külön képzést a tűzoltók a szerver termekre vonatkozóan? Vagy vannak az adatközpontokkal közösen szervezett speciális gyakorlatok; hogy elkerüljék azt hogy elmenjen fél Magyarországon az internet egy - akárcsak kisebb - tűzeset miatt?

Azért, mert a legtöbbször úgy csinálják, hogy attól, hogy lekapcsolod a szintet, még ott marad a falban a feszültség alatt álló vezeték, pl. ami tovább megy a következő szintre, stb.

Ha azt akarod, hogy a tűzeset miatt ne kapcsoljanak le mindent, akkor úgy kell megcsinálni, hogy a külön tűzvédelmi területen működő géptermed tartalék áramforrása is azon a területen belül legyen, és önállóan működjön, ha leválasztják a külső áramról. Ha a tűz azt a területet is fenyegeti, akkor le fogják kapcsoltatni, de egyébként békénhagyják. Persze, olcsóbb és egyszerűbb egy körbemenő kábelről üzemeltetni mindent.

Én is kinéztem volna belőlük...
Korábban kisebb cégeknél is voltak szervereim. Azokkal gyakorta adódtak kisebb-nagyobb problémáim. A mostani szolgáltatómmal (leánykori nevén ev1servers) az utóbbi 2-3 évben talán ha egyszer-kétszer volt 1-2 órás hálózati kimaradás, meg talán összesen egyszer volt nem tervezett szerver újraindítás.
Viszont, ha gond van Úgy látszik az is sokkal nagyobb. Idestova másfél napja nem működik a gépem. Ennyi idő alatt egy kisebb cég valószínűleg valahogy azért meg tudta volna oldani a problémát.

Elsősorban arra gondolok, hogy kis helyeken gondolom olyan általános műszaki eszközöket használnak, amiket megsemmisülés/meghibásodás esetén könnyebb beszerezni, akár kereskedelmi forgalomban raktárról is.

Nekem is nehézséget okoz az utóbbi 3 napban az engem hívogató arcoknak elmagyarázni, hogy mi tart ennyi ideig egy áramellátás helyreállításában.
Volt, hogy pl itthon elment az áram. Egyszerűen szóltam a szomszédnak, hogy dobjon már át egy hosszabbítót... 9000 szerver esetén (néhány Mega Watt), ez általában nem járható út.

Miért kéne külön kiképzés szerver termekre vonatkozóan?

Néhányan úgy próbálják beállítani, mintha egy ilyen energiaellátó- és tűzoltórendszer teljesen sci-fi lenne, pedig nem az, egy rakás helyen van ilyen, irodaházaktól kezdve gyárakon át mindenféle helyiségig.

Természetesen kurvára nem az az első, hogy néhány vacak szerver működjön a szó szerinti tűzoltás alatt. Ha a fél magyar internet elmegy egy VH tűzeset miatt, annak leegyszerűsítve egyetlen oka lesz, miszerint az embereknek - az otthoni felhasználótól a nagyvállalatig - olcsón kell szar, persze ha a dolog megtörténik, akkor majd rá lehet fogni a tűzoltókra, hogy miért kapcsolták le az áramot.

Ajánlott irodalom: Enterprise Data Center Design and Methodology, Rob Snevely, Sun Microsystems.

A külön kiképzést és a helyi gyakorlatot amiatt vetettem fel. Mert mi van, ha az egyik fenti hozzászólásodban részletezett tűzvédelmi zónákat kialakítják ugyan, de ha a tűzoltó nem ismeri az épület rendszerét, logikus, hogy biztos ami biztos alapon mindent le fog kapcsoltatni és mindenkit evakuáltatni fog az épületből.

Előrebocsátva: nem vagyok tűz- és munkavédelmi szakember, de ültem ilyennel egy irodában, szóval értek hozzá. :)
Az ilyen komplexumoknál érdemes (kötelező?) jó viszonyt ápolni a tűzoltókkal. Közvetlenül hozzájuk bevezetett tűzjelző rendszer, adott indőközönként tűzoltósági bejárás (kijön egy csapat tűzoltő, felméri a terepet hogy mi merre, baj esetén ne vakon kelljen a füstben botorkálni), jelző- és automatikus oltórendszerek dokumentációinak, alaprajzoknak a tűzoltóság számára hozzáférhetővé tevése alap.

Ha meg para van, nyilván elsősorban mások, utána a saját testi épségük megóvása az elsődleges. Ezután jöhet az anyagi értékek mentése, beleértve a szerverek uptime-ját. Jól van ez így, respect nekik.

Egyrészt ez nem így működik, minden ilyen méretű installációról tűzvédelmi terv készül, amit a tűzoltóság ismer. (Elméletben, haha) Ahonnan evakuálni kell, ott meg tűzveszély van, tehát..

Másrészt próbáld így elképzelni:
Ég a családi házad. A tűzoltósággal együtt érkezik az ELMÜ szakembere is, és a villanyoszlopon / föld alatt / stb leválasztja az egész épületet a hálózatról. Tehát NEM a biztosítószekrényben kapcsolják le, mert akkor maradhatna a falban, meg ki tudja hol, áram alatt lévő vezeték. Sajnos volt szerencsém ilyet élőben is tapasztalni, így csinálják. Ha a leválasztás csak úgy valósítható meg kellő időn belül, hogy az egész utca áram nélkül marad, akkor úgy lesz.

Ha ezek után van hátul egy garázsod, ahol UPS-ről működik a mit tudom én.. lokális pálinkafőzde, az kurvára nem fogja őket érdekelni, amíg a tűz azt nem fenyegeti.

Hogy miért kell egyáltalán _biztosan_ áramtalanítani az adott szakaszt? Tűz, áram, olvadó vezeték, víz... ha mondjuk nem a megszakítók által védett szakaszon olvad szét, csúnya dolgok történhetnek, de az áramütés-veszély is bőven elég.

Biztos nem volt tuzfal. :)

Na jo asszem jobban teszem, ha visszamegyek tanulni.

--
Debian lenny, 2.6.23

Sajnos még mindig offline van a szerverem. Állítólag a leginkább érintett I. emeleten fekszik. A személyzet azt írta, hogy szereztek ideiglenes megoldásként - amíg a transzformátor házat nem építik újjá - egy 2MW-os generátort és most épp a légkondit tesztelik. De közbejött, hogy valami megszakító nem bírta a terhelést, s abból újat kell beszerezniük.
(ezek szerint mégsem volt teljesen redundáns a rendszerük, vagy a régi tartalék generátort meghagyják tartaléknak és egy újról működtetik a rendszert?)

Ha tudom, hogy napokig fog tartani ez a cirkusz, akkor az első fél órában már rendeltem volna egy új szervert, akár ugyanazon cég másik szervertermében...
Az igazgató nemrég felrakott egy hallgatható interjút, amiből azt lehet sejteni, hogy ők már az elején tudták, hogy napikig fog tartani ez a kiesés.

Odáig jutottam, hogy megrendeltem egy új szervert, hogy átrakjam cuccokat mentésből. Jól is ment minden, beszéltem chaten a sales-el, bla-bla-bla, a pénzt is levonták a kártyáról. Aztán jött a meglepi: bocs, az átlagos 1-2 órás setup idő 1-2 napra emelkedett...

"Aztán jött a meglepi: bocs, az átlagos 1-2 órás setup idő 1-2 napra emelkedett..."

Ekkora káosz után, csodálkozol? Még egyszer régebben mesélte az egyik IW-s, hogy mikor náluk volt egy teljes leállás (szerelték át a villamosvezetékeket, ELMÜ-ről lekapcsolták a gépeket, azok mentek tovább az akkumlátorokról. Probléma csak annyi volt, hogy a két blokkból (akkor még annyi volt) az egyik rossz volt és gyorsabban merült, mint kellett volna a másik meg nem bírta a terhelést. Látták ezt, csak az időzár miatt már nem tudtak időben visszaállni az ELMÜ-re. Azt mondta az IW-s, hogy kb. másfél napig tartott, mire mind az 1400 gépet végigjárták, megnézték, hogy bebootolt-e, felhívták az ügyfeleket, stb. Itt meg még fel is robbant a terem.

Újratelepítettem a gépet, 3-4 órát már aludtam is az utóbbi 48 órában. Bár ezer millió más dolgom is lett volna még mára...
Úgy tűnik működnek a dolgok. Soha nem gondoltam volna, hogy lesz amikor szinte könnyekig meghatódok, ha spamek érkeznek a postaládámba... (ennyi elég is volt a gyönyörködésből, hogy jönnek a levelek. Spameket töbet már nem kérek :) )

A régi gép azóta is elérhetetlen, a supportal többször chateltem. Kiderült, hogy az üzemzavar által leginkább érintett I-es szinten van a gép.
A ThePlanet hivatalos közleményei szerint már réges rég működni kéne, de a valóság az, hogy nem megy... De most már nem izgat annyira, sőt inkább önigazolásként élem meg, hogy volt értelme az áttelepítésnek...

Mik az eset tanulságai?

Az, hogy a jovo torrent tracker gepeiben nem csak titkositott filerendszer lesz, hanem csobomba is.. a nyomok hatekonyabb eltavolitasara.

----
Sooner or later you had to talk, even if it was only because you'd run out of things to throw. - Pratchett
honlap készítés