Rackforest leállt?

Virtualizáció

Látom megy a főoldaluk és a hup is.

Viszont az ügyfélportáljuk leállt. Valamint a VPS-em is.

Du. már láttam furcsa hálózati forgalom emelkedést. Most is azt láttam mielőtt lehalt.

Átálltam tartalék szerverre.

3536 megtekintés

hol megy hol nem megy, most megy nálam

1 szavazat

A hozzászóláshoz be kell jelentkezni

Nekem ez a 2. kiesés a mai napon.

Lehet valami támadás érte Őket?

0 szavazat

A hozzászóláshoz be kell jelentkezni

hackforest?

2 szavazat

A hozzászóláshoz be kell jelentkezni

Épp most a szervernetes VPS-em döglődik ugyanígy. Lehet, szélesebb körű a támadás, mint csak a RackForest?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nekünk Invitech-es riasztás is jött ugyanabban az időben.

0 szavazat

A hozzászóláshoz be kell jelentkezni

jah, munkaidő végével még valaki kirúgta a routerből a kábelt, ma már másodszorra. sok vpsből pár látszik, de a többsége nem.

ügyfélszolgálat, tech telefonon szokás szerint elérhetetlen. facebookra, twitterre egy betű status infot nem raknak ki...

~ubuntu, raspbian, os x~

0 szavazat

A hozzászóláshoz be kell jelentkezni

A 0-24-es tech support mobilszamot nekem azonnal felvettek es mondtak hogy halozati eszkoz problemajuk van.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Hálózati eszköz meghibásodása miatt folyamatban van a hálózati forgalom átterhelése más eszközökre.

Az esetről várhatóan a Rackforesttől megszokott módon, korrekt post-mortem tájékoztatást fogunk kapni...

2 szavazat

A hozzászóláshoz be kell jelentkezni

Igen, ez volt délben is. Aztán úgy tűnt, rendben. Aztán mégsem. Kíváncsi leszek a hiba valódi okára, de nem éreztem, hogy nagyon urai lennének a helyzetnek.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mar megint ?

Ez van ha fillerekert akarsz embert, kapsz csak az pont olyan is lesz.

Kitartast elvtarsak!

Every single person is a fool, insane, a failure, or a bad person to at least ten people.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Miről beszélsz?

A probléma gyökere eszköz-meghibásodásban van.
Magyarország talán egyik legelismertebb hálózati szakembere (aki egyben a cég egyik tulajdonosa) is személyesen dolgozik a probléma megoldásán.

1 szavazat

A hozzászóláshoz be kell jelentkezni

- hosting: elmúlt két hétben már kétszer tűnt el a külföldi kapcsolatuk a hostingolt gépünkről - egyiket sem vették észre, mindkettőt reportolnom kellett, és legalább 4-6 órán át nem volt routing

- vps: ma 2x volt kimaradás, nem 1-2 perces

Ennek ellenére tényleg jók, teljes körú a tájékoztatás, de jöbben örülnék, ha a hosting és a VPS is stabilan működne, és nem az utólagos tájékoztatásnak kellene örülnöm...

2 szavazat

A hozzászóláshoz be kell jelentkezni

Hasonlokeppen erzek, Rackforest elott a T-nel voltunk, mindket helyen szervereket berlunk (bereltunk).

Mindenben fenyevekkel a T elott jarnak, berszerverek ajanlatai, ugyfelkezeles, tajekoztatas, versenykepes arak, kommunikacios szinvonal, rugalmassag, stb. Szo szerint egy masik dimenzio a T utan, felfoghatatlan a kulonbseg.

Viszont a T-nel 5 ev alatt nem volt annyi muszaki kimaradas mint a Rackforestnel 1 ev alatt. Szoval ez a resze igencsak elszomorit :(

1 szavazat

A hozzászóláshoz be kell jelentkezni

Viszont a T-nel 5 ev alatt nem volt annyi muszaki kimaradas mint a Rackforestnel 1 ev alatt.

De nem is azonosak a pénzügyi és humán erőforrások. A kiscégek one-man-show jellegűek, a nagyok meg tele vannak vészhelyzeti tervekkel, melegtartalékokkal, és (igaz hogy alig megfizetett de) nagy létszámú humánerőforrással.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Azért a T eléggé csapnivaló. Nekünk mondjuk a szemünkbe hazudtak szerződéskötéskor, és amikor jeleztük a T központja felé, előléptették azt, aki ezt csinálta. Amúgy pedig a 4 órás hardver hibaelhárítási garanciájuk úgy működik, hogy a hardveres szakember reggel 9-re jár be dolgozni, azaz hajnali 5 előtt akkor sem tudnák betartani a szerződést, ha akarnák.

Amikor ez kiderült, mi akkor jöttünk el.

De a RackForest-en kívül nem igazán tudok még egy szolgáltatót, aki hibaelhárítási garanciát vállal, nem hogy 2 órásat! Tehát, ha innen menni kell, nem tudom, hova lesz az oda ...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Vannak operátorok 24x7, nem tartom kizártnak, hogy ők is sok mindent meg tudnak csinálni. Akár úgy, hogy valami hardveres szaki ügyeletben van, akit fel lehet hívni elakadás esetén és ha kell, akkor be is megy. Ezenkívül lehetnek egyéb megoldások is, például gyártói vagy egyéb támogatás. De nem védeni szeretném őket, én is hallottam már one-man-show üzletet a T részéről (kicsit más területen), csak ez így számomra azért is furcsa, mert ha "a" szakember elmegy szabira, akkor akár 2 hétre csökken a rendelkezésre állás? Persze nem kizárt, de eléggé hihetetlen, akár más is lehet a háttérben.

Nekem az elmúlt 18 évben pozitív a tapasztalatom (Petőfi Sándor utca, majd Dataplex), egyszer volt egy keményebb leállás (sok éve), egy kisebb akadás, azon kívül gyakorlatilag semmi. Ha kellett valami, gyorsan és használhatóan reagáltak. Úgyhogy így általánosságban nem jelenteném ki, hogy csapnivaló. Nem azért, mert védeni szeretném őket, csak ezt így nem tartom fairnek.

0 szavazat

A hozzászóláshoz be kell jelentkezni

hat azert ejjel nincs egy gyors reagalasuk. este 8-10 korul kertem egy kabel atkotest, ejjel 3-kor jott a level hogy megcsinalta. nemtudom addig mit csinalt, aludt vagy ugyfelezett, vagy a napkozben eltolt feladatokat csinalta :/

A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nekem este/éjjel is volt gyors reagálású tapasztalatom. Lehet, hogy lassú is volt, nem emlékszem minden esetre, de összességében nincs bennem olyan tüske, hogy micsoda vacak társaság. Ezenkívül hálózatilag a két említett probléma volt mindössze, tápellátással nem volt még gond.

Rossz napja mindenkinek lehet, hibák szintén mindenhol lehetnek, nem állítom, hogy biztosan minden tökéletes, de a vacak/csapnivaló kategória biztosan nem igaz. Persze az is lehet, hogy ez a csapnivaló kategória és ehhez szoktam hozzá, de a hozzászólások nem ezt tükrözik. Ettől függetlenül szurkolok a Rackforestnek, hogy fejlődjenek ahol lehet és tudnak.

0 szavazat

A hozzászóláshoz be kell jelentkezni

a one-man-show eleg gyakori pedig, es nem azert mert darabszamra nem lenne tobb ember, hanem mert vagy az adott speci szakterulethez osszesen 1 ert komolyabban, vagy pedig nincs semmi rendesen dokumentalva (es/vagy agyon van trukkozve.kokanyolva minden) es csak 1 ember igazodik ki rajta. az ilyenkor nyaralni is csak bekapcsolt telefonnal mehet... mert ott lennie fizikailag altalaban nem szukseges, de csak o tudja iranyitani a munkalatokat, akar a vilag tulso vegerol.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Minden nagy multinal minden csapatban vannak ilyen 1manshow-k. Akiket kb. lehetetlenség kirúgni, vagy ha igen akkor szopás lesz mert senkinek nem adja át a melót tisztességgel. Illetve senki nem is akarja átvenni tőle a melót mert évek/évtizedek alatt megutáltatta magát minden körülötte levő kollégával. A rocksztárstatusz miatt mindenki utálja mint a szart, de mivel érinthetetlen, a főnökségnél is csontig be van nyalva, a vele 1 szinten levők nem tudnak vele mit kezdeni. Morálromboló rákos burjánzás, és sajnos mindenhol van belőlük. Jóérzésű és kevésbbé törtető kevésbbé arrogáns emberek menekülnek ezeknek a közeléből. A hasonló szociopata seggfejekkel (szigorúan más más részlegéről ugyanannak a cégnek, mert hazai pályán már vetélytárs lenne) mondjuk jól megértik egymást, persze vigyázva h. a másik ne nyomja le őket a saját területén.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Minden nagy multinal minden csapatban vannak ilyen 1manshow-k.

A managment idiótizmusa az oka ennek a jelenségnek, mert nincs is idő rendesen megtervezni, átgondolni, dokumentálni semmit.

A főnököm azzal vezetett fel egy projektet, hogy "neked ez csak újjgyakorlat". A projekt 8 társosztályt érint, 3 kontinensen. 2 hónap után azt mondta, hogy már rosszúl van amikor erről a projektről hall, úgyhogy zárjam le még aznap! Mondanom sem kell hogy még mindíg ezen is dolgozunk, de amikor eljutunk egy "éppen hogy működik" állapotba, akkor úgyis lezérjuk a projektet dokumentáció nélkül. Amit tehetünk, hogy a levelezést archíváljuk, hogy később azért könnyebb legyen kitalálni, hogy mit csináltunk?

Mindazon által a kicsi cégeknél méginkább jellemző ez magatartás, mert ott aztán még emberhiány is van. Jóesetben van egy mérnök és néhány operátor.

0 szavazat

A hozzászóláshoz be kell jelentkezni

az fel sem merült benned, hogy vannak olyan szakemberek, akik inkább elmennek a multitól és megcsinálják a saját one-man-show-jukat?
Az az 1 ember aki ottmaradt, pedig nem feltétlen rockstar - de cserébe Ő sem tudja nyugodtan kivenni az éves 4-6 hét szabadságát?
(de értem - anélkül, hogy személyeskednék - mindenki magából indul ki...)

1 szavazat

A hozzászóláshoz be kell jelentkezni

Megneztem a lakcimkartyam. Nem valtozott: EU/Hu.

Igy viszont nem ertem azt a szot hogy szabadsag, plane a 4-6 het mennyiseg jelzovel es a nyugodtan kifejezessel.

1 szavazat

A hozzászóláshoz be kell jelentkezni

mindenféle kalkulátorok szerint az 1974-es születésű dolgozónak - 2 gyerekkel - 34 munkanap szabadság jár.
Ezzel gyakorlatilag 7 hétre tud elmenni kikapcsolódni. Egy komolyabb multinak illik tudni ezt kiadni szerintem.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Adatok stimmelnek, kalkulus rendben. De akkor ki csinalja meg a xyz dolgot, amikor nem vagyok gep elott? :) es :(

Cserebe 150e Ft-tal tobb a fizum mintha sima dolgozo lennek. Ez jo volt egy darabig, de mar nincs kedvem hozza, penz mar nem szamit (tfh. igy is egy sport bmw-vel jarok kb. sehova), de cserebe mar nem is tudom mi az a kikapcsolódás.

Sztem mas cegeknel is lehet ilyen helyzet.

3 szavazat

A hozzászóláshoz be kell jelentkezni

Volt ilyenhez szerencsém, hogy 2-3 fővel ment a keményen 7x24-es rendelkezésre állás - egyszerű volt a megoldás: váltottam más céghez, úgyhogy jópár éve már nincs kötelezően készenlét - az más, hogy a munkahelyemen a kollégák szabadságom alatt is számíthatnak rám - ahogy én is rájuk - de az a természetes, hogy csak akkor keressük azt, aki szabin van, amikor olyan szinten "ég a ház", hogy más lehetőség nincs. Emberileg és szakmailag is jól felkészült csapat kell hozzá - akiknek az és elég, ha nagy gond esetén kapnak egy néhány mondatos iránymutatást, hogy "merre keressék a tűzcsapot" :-)

6 szavazat

A hozzászóláshoz be kell jelentkezni

Akkor pontosítanék. Konkrét hiba esetén már mi is bent ültünk a gépnél hajnal óta, és vártuk a 9-re beérkező hardverest, mert az éjjel bentlévő már nem értett a felmerült problémához ...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Akkor csinaljak meg rendesen, ha olyan jok. Egy eszkoz hiba fejreallit majdnem mindent akkor az bizony nemjo. Ertem en, hogy az penzbe kerul nem kevesbe, de a repu az egy draga dolog es nagyon konnyu elbaszni.

Every single person is a fool, insane, a failure, or a bad person to at least ten people.

1 szavazat

A hozzászóláshoz be kell jelentkezni

egyetertek. viszont en is lattam, tapasztaltam fejreallast jol megtervezett, minden elemeben redundans, tulbiztostitott rendszeren is, neves gyarto sokmillios switch szoftverhibaja miatt, ami magaval rantotta a tobbi eszkozt is...

1 szavazat

A hozzászóláshoz be kell jelentkezni

És hogy egy klasszikust idézzünk:

"100% is the wrong reliability target for basically everything "

1 szavazat

A hozzászóláshoz be kell jelentkezni

sajnos egy komolyabb switch nem csak ugy tud meghibasodni, hogy kialszanak a fenyek es megall... izgalmasabb amikor a spanning-tree megzakkan, vagy osszekeverednek a vlanok, esetleg valami vedelmi mechanizmus (bdpuguard stb) random lekapcsolgat trunk portokat. de olyat is lattam mar, hogy csak bizonyos mac cimek nem mentek at a switchen, a monitorozo rendszer es az lacp/stp igen, igy random leszakadtak szerverek mikozben minden jonak tunt.

es akkor layer3-rol meg nem is beszeltunk, meg olyan advancedebb datacenter featurek mint mpls, vxlan stb

1 szavazat

A hozzászóláshoz be kell jelentkezni

Igazan kolosszális network megborulast csak cisco-val lehet előidézni :)

1 szavazat

A hozzászóláshoz be kell jelentkezni

Na, azért HP-Aruba és az STP is tud ihaj-csuhaj anyázásokat okozni... (Ahol ez történt, ott -ha jól tudom- csak egy firmware frissítés volt az egyik eszközön...)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Egy STP szerintem eleve nem tud megbízható lenni. Tehát arra építeni, hogy a redundanciámat majd az STP kezeli, az zsákutca.

0 szavazat

A hozzászóláshoz be kell jelentkezni

STP-t nagy helyeken, datacenterekben rég nem hasznâlnak, mert ott marad a redundáns kapacitás kihasználatlanul

0 szavazat

A hozzászóláshoz be kell jelentkezni

fixme, de MSTP-nél azt mondod, h adott VLAN-ok az egyik, másik VLAN-ok a másik irányt használják - így nincsen kihasználatlan kapacitás- aztán szakadás esetén meg mindenki megy a "maradék" vonalon.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kaptam is levelet RF-től, hogy mi volt a hiba. Felét sem értettem, de nem úgy tűnt mintha egy kábel csúszott volna ki. Szóval itt is valami spéci csillagegyüttállás volt.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Én a felének a felének a felét se értettem :P De mostanság csak ilyen levelek jönnek, hogy valami hw beszarik náluk. Máshol nem szarnak be a hw-k? :)

Tényleg nem akarom se védeni, se támadáni őket, csak fura.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Egy eszkoz hiba fejreallit majdnem mindent akkor az bizony nemjo

Az a baj, hogy a technológiák nem olyanok az IT-ban, hogy minden eszközhibát ki lehessen küszöbölni (jellemzően nem a "beszart a hw, megállt a cucc" a gond, mert arra vannak jó megoldások, hanem az, amikor az eszköz látszólag csinál valamit, tehát a tartalék nem fog beugrani helyette, de nem látja el jól a feladatát). Ezért kell jó monitoring rendszert kiépíteni, hogy ha valami nem jó, azt ne a tünetekből meg a telefonáló ügyfelek reakcióiból vegyük észre.

4 szavazat

A hozzászóláshoz be kell jelentkezni

Ez azert most nem jogos. Percekben merik a leallasokat es azonnal reagalnak. Majd jon level is hogy min volt a baj. Sztem korrekt.

0 szavazat

A hozzászóláshoz be kell jelentkezni

hát ez min 2x45p volt , random helyekről ment - nem ment-, és k* nehéz az ügyfelek torkán lenyomni, h miért nem megy a szolgáltatás, úgy h 0 infó van mostanáig (21:42)

~ubuntu, raspbian, os x~

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kérdés, felemelted a telefont érte? Mintha többen leírták volna, hogy felvették a telefont.

0 szavazat

A hozzászóláshoz be kell jelentkezni

3-an hívtuk őket, ki se csöngött, eközben meg közben tartani a hátunkat az ügyfelek felé, meg még alternatívákat kitalálni, h hova költözzenek a fontos szolgáltatások...

~ubuntu, raspbian, os x~

0 szavazat

A hozzászóláshoz be kell jelentkezni

Én személyesen 2x beszéltem velük pénteken, délben és este.

Milyen fontos szolgáltatások? Van olyan szolgáltatás aminél elő van írva hogy legyen kötelező BCP és még tesztelni is kell időnként hogy tud e működni ha elvész az elsődleges. Tapasztalatom szerint ott sem egyértelmű a folyamatos szolgáltatás.

"Ennél kevésbé fontos szolgáltatás" esetén pedig nincs ilyen vállalás ugye, ez arra van bízva aki üzemelteti. Van aki a felhő alapú gigaszolgáltatókban bízik és azoknál csinál kvázi globális szolgáltatást. Van aki DNS alapú több szolgáltatós elosztást csinál és ezt beépíti az árba.

Tehát elhiszem, nem értétek el őket egyszer sem aznap ezért nem tudtatok semmit se csinálni gondolom nem okozott akkora gondot hogy ezen "fontos" szolgáltatásokat átvigyétek, vagy nyeljetek egyet és azt mondjátok "egyelőre nem tudunk semmit a partner szolgáltató ahol vesszük a szolgáltatást nem tudott választ adni"

A fenti egyébként egy nagy cloud alapú szolgáltatónál elég könnyen bejön, mert ugyan mindenki dolgozik a probléma megoldásán, de a meglévő erőforrás ellenére sem adnak ki tájékoztatást, mert nem akarnak olyat mondani ami később hülyeségnek bizonyul. Ugyan ezt nem keverném ide, de lásd fastly esetét ezen a héten.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Redundancia az szolgaltatotol fuggetlen. Ha rackforest lenne a vilag legstabilabb es mindenben legjobb szolgaltatoja sem lenne szabad csak 1 szolgaltatora bizni magad ha vannak "fontos" ugyfeleid.

0 szavazat

A hozzászóláshoz be kell jelentkezni

hova költözzenek a fontos szolgáltatások

Ha egy van belőle, akkor az nem fontos szolgáltatás. Nekem volt szolgáltatásom, aminek egy része az OVH leégett adatközpontjában volt, nyünnyögött miatta kicsit a menedzsment rendszer, hogy baj van, de egy röccenés nem volt a kiszolgálásban, pár órával később, amikor kiderült, hogy leégett a picsába és nem fogják visszakapcsolni, felhúztam hat új VPS-t másik DC-ben, a Puppet-nek megmondtam, hogy "Öl!" és a Puppet megcsinált mindent, az adatok átmigrálódtak a többi adatközpontból és át kellett írnom kézzel kettő IP címet, amikor lement mindez. És nem mondanám, hogy drága, 3 live DC 90 EUR, 2 backup DC 30 EUR, Amazon Route 53 5 EUR, külső check 5 EUR, az összesen 130 EUR, 45 ezer pénz havonta.

Ha nincs ilyened és egy helyen van minden, akkor nem fontos a szolgáltatás, csak van olyan ügyfél aki minden fillért egyenként megbasz és közben elvár egy always-on architektúrát és van olyan szolgáltató, aki fillérekért ad 99,95% rendelkezésre állást, aztán meg elolvasod az ÁSZF-et és látod, hogy a rendelkezésre állás a teljes szerverparkra vonatkozik, nem az egyes szerverekre, illetve ezen túlmenően a szolgáltatás kiesés időtartamára eső, havi bérleti díj arányos részét jóváírja. Mit is jelent ez? Azt hiszed, hogy vettél egy 99,95% rendelkezésre állású szervert mondjuk egy évre 120 ezer forintért, ami maximum 4,5 órát fog állni, a valóság meg az, hogy ha áll egy évben 7 - azaz hét - napot, de a szerverpark meg minden amúgy megy, akkor maximum visszakapsz 2500 forintot, vagyis 117.500 forintért vettél 98% rendelkezésre állást és mindez teljesen jogszerű, csak tudni kell olvasni szerződést.

https://iotguru.cloud

12 szavazat

A hozzászóláshoz be kell jelentkezni

sub

A hsz alja mehetne minden klódhírdetés alá a figyelmeztetés részbe, hasonlatosan a gyógyszerreklámok hírdetései alatt (HD csatornán érdemes 1-1 ilyet kimerevíteni és hüledezni ott miket írnak pl. a csoda csupatermészetes összetevős szaroknál), vagy a kofidisz-provident reklámok alá (a tájékoztatás nem teljeskörű, v. a reklám nem befektetési tanácsadás, stb.).

0 szavazat

A hozzászóláshoz be kell jelentkezni

Egyébként ez nem cloud specifikus dolog, minden egyébre igaz, hogy érdemes megolvasni értően az ÁSZF-et és akkor kevés meglepetés éri az embert...

https://iotguru.cloud

0 szavazat

A hozzászóláshoz be kell jelentkezni

Valójában nem is ez szokott lenni a fő gond, hanem a wishful thinking.

"á, az úgyse romlik el!"

0 szavazat

A hozzászóláshoz be kell jelentkezni

Valójában nem is ez szokott lenni a fő gond, hanem a wishful thinking.

Kicsit talán az is, de nagyrészt szerintem ezek az irreális elvárások abból gyökereznek, hogy nem olvassák el a szerződést és persze a szolgáltató is igyekszik fényezni magát, mert ha nem írja le nagy betűkkel a landing page elejére, hogy 99,95 százalékos a rendelkezésre állás, akkor a fillérbaszó ügyfél megy ahhoz a szolgáltatóhoz, amelyik leírja nagy betűkkel a landing page elejére, hogy 99,95 százalék a rendelkezésre állás, persze fillérekért. Az ÁSZF-ben meg általában ugyanaz van, hogy a vállalt állásidőn felül visszaadják az arányos havidíj 1-5x részét.

Aztán meg, amikor beüt a baj, akkor jön az, hogy "tartani a hátunkat az ügyfelek felé", pedig azért azon a háton valóban van mit ütni, ha simán átment a végfelhasználóig az, hogy 99,95 százalék a rendelkezésre állás, holott egy példányban fut a szolgáltatás és a használt technológia nem is támogatja a high-availability lehetőségét...

Persze, vannak jó sokan, akik nem is értik ezt a HA dolgot, volt cég, ahol az egyik komponensért felelős csapatnak hetekig kellett magyarázni, hogy nem azért kell abból a dologból három-három két külön adatközpontban, mert egy nem bírná a terhelést, hanem azért, mert magas rendelkezésreállást szeretne az üzlet és hiába bírja egy darab node is a terhelést, ha az bármiért megáll, akkor minden áll, ha meg minden áll, az sok pénzbe kerül. Ez wishful thinking, hogy elég abból egy? Szerintem simán balfaszok.

Ezért szokásom például az, hogy egy ilyen rendszerben a fejlesztői és teszt környezetben is óránként 5 percet áll egy-egy node és néha megy a reset is egy-egy node-nak, hogy csúnyán álljon le, néha elfogy a hely, néha elfogy a memória, néha elfogy a CPU (aka Chaos Monkey és Toxiproxy). Ha ettől valami megborul, azt meg kell javítani, nem pedig félni attól, hogy jajj, mi lesz, ha megáll vagy újraindul egy node vagy valamilyen erőforrás elfogy. Azért HA, hogy ezeket kibírja, annak semmi értelme, hogy felkészülünk egy tökéletes üzemszerű működésre, aztán az első botlástól felborul az egész a picsába és mindenki pingvinezik, hogy miért nem megy és mikorra lesz jó.

https://iotguru.cloud

6 szavazat

A hozzászóláshoz be kell jelentkezni

okos a bőgés..

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nehéz volt régen a heliocentrizmust betenni a köztudatba, mert a legtöbb embernek semmilyen képe nem volt amihez viszonyíthatta volna az elképzelést. A történelem sokszor ismétli magát főleg az olyanok miatt akik azt gondolják mindent is tudnak és mindent is láttak.

Csak úgy eszembe jutott.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mar elmult.

0 szavazat

A hozzászóláshoz be kell jelentkezni

téged is gyíkká változtatott? :D

7 szavazat

A hozzászóláshoz be kell jelentkezni

A tervezett elavulás közbeszólt.

3 szavazat

A hozzászóláshoz be kell jelentkezni

Mondta ezt a hup főbohóca, a mindenhez is nem értő Hájblézer™ kartács...

35 szavazat

A hozzászóláshoz be kell jelentkezni

Állapította meg elitkedve a HUP multiknak mindig igazat adó, kisemberellenes, vadkapitalista, legfősodratúbb mérnök ura.

2 szavazat

A hozzászóláshoz be kell jelentkezni

Komolyan tökre hiányzik egy -1 counter erről a site-ról...

20 szavazat

A hozzászóláshoz be kell jelentkezni

A mostani +1-gyel is lehet személyeskedni.

Lásd Zeller Mérnök Úr személyemet ócsárló kommentjére adott pluszok.

3 szavazat

A hozzászóláshoz be kell jelentkezni

A +1 és a -1 kicsit árnyaltabbá tenné a képet:

X darab egyetértő

Y darab gyökeresen mást gondoló

1 szavazat

A hozzászóláshoz be kell jelentkezni

És akkor a +1/-1 állásból kikövetkeztetett képzelt többséged mögé bújva ócsárolhatnál te is, ha több a mínusz, mint a plusz.

Én őszintén kívánom, hogy teljesüljön e kisded vágyálmod.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Gondolod, hogy lenne plusz? Hájblézer™ a naív troll...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Lenne. Ahogy eddig is volt.

Alább néhány kommentem, ami legalább 5 szavazatot kapott az elmúlt időszakban.

https://hup.hu/comment/2566811#comment-2566811 (15)
https://hup.hu/comment/2633336#comment-2633336 (10)
https://hup.hu/comment/2638865#comment-2638865 (8)
https://hup.hu/comment/2627218#comment-2627218 (6)
https://hup.hu/comment/2627215#comment-2627215 (5)
https://hup.hu/comment/2634036#comment-2634036 (5)

Ezek mind olyan témákban adott kommentek voltak, amikkel kapcsolatban te rögvest az ellenkezőjét képviseled. A multiknak mindig igazat adó, korporatokrata, fősodratú kommentjeidre valahogy mégse jön soha ennyi +1. Csak azokra, amelyikben nekiállsz engem közvetlenül ócsárolni. [1] Ebből is látszik, hogy esetünkben a személyeskedésen túl nem lenne sok értelme a mínuszegyeknek. Az pedig csak annyit mond el rólad és a többi fősodratú személyeskedőről, hogy kognitív disszonanciátok van, ezért inkább a személyt támadjátok, aki felhívja a figyelmet egy rendszer hibáira, aminek a haszonélvező megalkuvói vagytok.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Érdekes módon, ezek a +1-ezett kommentek legtöbbször valami konkrét mondanivalóval rendelkeztek azon kívül is, hogy hurr-durr köcsögmulti™. Talán van valami összefüggés a lájkok száma és a mondanivaló cizelláltsága között. :)

13 szavazat

A hozzászóláshoz be kell jelentkezni

az hogy ezt így vezeted, kórképnek is megállja a helyét...

9 szavazat

A hozzászóláshoz be kell jelentkezni

Nem vezetem, a HUP rögzíti. Külön Zeller Mérnök Úrnak keresgéltem ki, hogy megcáfoljam az állítását, miszerint én nem kaphatok pozitív szavazatot.

Nyilván, ha nem bizonyítom, az a baj, ha bizonyítom az a baj.

4 szavazat

A hozzászóláshoz be kell jelentkezni

Akkor is rossz véleményem lenne rólad, ha egyedül lennék a véleményemmel.

Egyszerűen érdekesnek tartanám, hogy egy-egy post mennyire illeszkedik az itteni közvélekedésbe. Nem azért, hogy igazodjak hozzá, hanem mert érdekel.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Jelen esetben kizárólag személyeskedésre használtad volna a mínuszegyeket, amit egyértelműen bizonyít, hogy az én kommentemre adtad válaszul a hiányuk miatti siránkozásod.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kértem ezt már korábban is, ha jól emlékszem. Azzal együtt, hogy minden blog vagy fórum tema nyitóját is lehessen fel/le vote-olni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem változtat a lényegen.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Van egy most nagyon jól hasznosítható funkció a HUP-on. A szavazatot vissza lehet vonni. - Mert felszínes ítélkezés, mert személyeskedő, mert bőven diszkriminatív. Semmit nem árul el, és nem minősít "hajbazer" kollégáról. Viszont a végeredménye átgondolatlanul "troll" és emberi mivoltában megalázó. (Szerintem a HUP-on kommentelők ennél jobb lelkűek, csak az "egy bolond százat csinál" elven nem gondolkodtak, mielőtt szavaztak valami hülyeségre..,) - bocsánat, de ez az én véleményem. :(

0 szavazat

A hozzászóláshoz be kell jelentkezni

Azert a hup nem egy olyan rettento nagy kozosseg, a rendszeresen kommentelok jelentos reszerol idovel kiderul, hogy mivel foglalkozik, mihez ert nagyon, stb.

Az is kiderul, ha valaki nagyon nem ert valamihez, ennek ellenere rendszeresen hozzaszol. Egy-ket ilyen alkalomnal meg lehetne "felszines" itelkezes, de Hajbi ezt mar reg tullepte.

A strange game. The only winning move is not to play. How about a nice game of chess?

1 szavazat

A hozzászóláshoz be kell jelentkezni

Kb 2 órája jött 3 e-mail tőlük, idekopizom:

Hibajegy száma: RFTT/2021/NET/00005
Érintett szolgáltatások: Internet (IP) kapcsolat / Hálózat
A hiba típusa: Részleges hálózat kiesés
A hiba kezdete: 2021.06.11 10:06:45
A hiba vége: 2021.06.11 10:15:00
A teljes kiesett idő: 00:08:15
-----------------------------------------------------------------------------
Az Ön érintett szolgáltatása:
(...)
-----------------------------------------------------------------------------
A hiba oka, leírása:
A RackForest gerinchálózata VxLAN alapú BGP EVPN control plane-el és helyszínenkénti route reflektorokkal. A hiba a BGP route reflektorokban lépett fel, bizonyos körülmények között egy-egy BGP session memória buffer hibával
megszakadt és újraindult, ennek még nem kellett volna hibát vagy kiesést okoznia, de több esetben ilyenkor véletlenszerűen másik BGP session-ök is megszakadtak. Ennek az eredménye a route reflektorokban egy öngerjesztő processzor túlterhelés lett, mely miatt egy idő után már annyi BGP session szakadt meg ami már túllépte a redundancia tűrőképességét és részleges hálózati kieséseket okozott. Ez a kiesés a RackForest hálózatában véletlenszerűen két hálózati eszköz között 1-2 percre megszakadó kapcsolatok formájában jelentkezett.

A hiba javítása:
A hiba behatárolása után, mivel a hiba önmagától megoldódott, a BGP route reflektorokon csökkentettük a processzor terhelést és elkezdtük a hiba részletesebb vizsgálatát.

Aztán:

Hibajegy száma: RFTT/2021/NET/00006
Érintett szolgáltatások: Internet (IP) kapcsolat / Hálózat
A hiba típusa: Részleges / teljes hálózat kiesés
A hiba kezdete: 2021.06.11 11:01:18
A hiba vége: 2021.06.11 14:14:00
A teljes kiesett idő: 03:12:42
-----------------------------------------------------------------------------
Az Ön érintett szolgáltatása:
(...)
-----------------------------------------------------------------------------
A hiba oka, leírása:
A RackForest gerinchálózata VxLAN alapú BGP EVPN control plane-el és helyszínenkénti route reflektorokkal. Ugyanaz a hiba lépett fel mint az előző (RFTT/2021/NET/00005) hibajegyben, a BGP route reflektorok processzor terhelésének csökkentése nem volt elegendő a hiba ideiglenes megoldásához.

A hiba ismetelten a BGP route reflektorokban lépett fel, bizonyos körülmények között egy-egy BGP session memória buffer hibával megszakadt és újraindult, de több esetben ilyenkor véletlenszerűen másik BGP session-ök is megszakadtak. Ennek az eredménye a route reflektorokban egy öngerjesztő processzor túlterhelés lett, mely miatt egy idő után már annyi BGP session szakadt meg ami már túllépte a redundancia tűrőképességét és részleges valamint teljes hálózati kieséseket okozott.

A hiba első felében (11:01 - 12:40 között) a jelenség ugyanaz volt mint délelőtt, a kiesések a RackForest hálózatában véletlenszerűen két hálózati eszköz között 1-2 percre megszakadó kapcsolatok formájában jelentkeztek.

A hiba második felében (12:50 - 14:14 között) már nagyobb kiesések és két teljes hálózat kiesés (13:16 - 13:18, valamint 13:38 - 13:48 között) jelentkezett.

A hiba javítása:
A hiba behatárolása után, mivel az eddigi megoldások nem vezettek eredményre, a BGP route reflektorokat azonos gyártmányú de dedikált eszközökre költöztettük, továbbá módosítottunk az eszközök control plane védelmi beállításain, nagyobb prioritást biztosítva a BGP protokollnak, növelve ezzel a hálózat stabilitását.

Majd végül (remélhetőleg):

Hibajegy száma: RFTT/2021/NET/00007
Érintett szolgáltatások: Internet (IP) kapcsolat / Hálózat
A hiba típusa: Részleges / teljes hálózat kiesés
A hiba kezdete: 2021.06.11 17:40:30
A hiba vége: 2021.06.11 18:41:00
A teljes kiesett idő: 01:00:30
-----------------------------------------------------------------------------
Az Ön érintett szolgáltatása:
(...)
-----------------------------------------------------------------------------
A hiba oka, leírása:
A RackForest gerinchálózata VxLAN alapú BGP EVPN control plane-el és helyszínenkénti route reflektorokkal. Hasonló hiba lépett fel mint az előző (RFTT/2021/NET/00005+6) hibajegyben, a BGP route reflektorok dedikált eszközökre költöztetése és processzor terhelésének csökkentése nem volt elegendő a hiba végleges megoldásához.

A hiba a Victor Hugo utcai gerinchálózati switchek processzor túlterhelésével kezdődött, később a probléma megoldása közben a BGP route reflektorokban ismételten fellépett a korábbi hiba: Bizonyos körülmények között egy-egy BGP session memória buffer hibával megszakadt és újraindult, és több esetben ilyenkor véletlenszerűen másik BGP session-ök is megszakadtak. Ennek az eredménye a route reflektorokban egy öngerjesztő processzor túlterhelés lett, mely miatt egy idő után már annyi BGP session szakadt meg ami már túllépte a redundancia tűrőképességét és részleges valamint teljes hálózati kieséseket okozott.

A hiba alatt a jelenség ugyanaz volt mint az előző két hiba esetében: A kiesések a RackForest hálózatában véletlenszerűen két hálózati eszköz között megszakadó kapcsolatok formájában jelentkeztek, valamint 17:43 - 18:05 között teljes hálózat kiesés volt tapasztalható.

A hiba javítása:
A hiba behatárolása után, mivel az eddigi megoldások nem vezettek eredményre, a BGP route reflektorokat más gyártmányú dedikált eszközökre fogjuk cserélni, növelve ezzel a hálózat stabilitását. A két route reflektorból
az egyiket az éjszaka (23:00 - 02:00 között) már ki is cseréltük, a tartalék cseréje a következő napokban várható.

Természetesen mindezek mellett felvesszük a kapcsolatot a hibás hálózati eszközök gyártójával, hogy a kérdéses BGP és BGP route reflektor funkciókal kapcsolatos szoftverhibát javítsák, de ez várhatóan nem lesz egy gyors folyamat, e miatt is döntöttünk úgy, hogy más gyártó eszközére cseréljük a problémás berendezéseket.

2 szavazat

A hozzászóláshoz be kell jelentkezni

ez várhatóan nem lesz egy gyors folyamat, e miatt is döntöttünk úgy, hogy más gyártó eszközére cseréljük a problémás berendezéseket

Nagyszerű. A hálózati eszközöknek gondolom azért megkérte rendesen az árát a firmware-fejlesztésen-tesztelésen spúrkodó multi.

2 szavazat

A hozzászóláshoz be kell jelentkezni

Emlékszel a Mórickás viccekre? Valamiért kísértetiesen emlékeztetsz rá.

1 szavazat

A hozzászóláshoz be kell jelentkezni

lemarad™

2 szavazat

A hozzászóláshoz be kell jelentkezni

Hájblézer™ nemérthozzédebeböfög megint böffentett egy méreteset...

3 szavazat

A hozzászóláshoz be kell jelentkezni

anélkül, hogy ismerném az RF belső infrastruktúráját, tfh route reflectornak FRR-t használnak. Eddig VM-ben futott, most kapott bare-metal-t maga alá.
Igaz, hogy az FRR open source, de most konkrétan azt várod Angelo-tól v másik kollégájától, hogy reggelre nézze át a forrást, hogy mi okozhatta a gondot, vagy még azért is morcos vagy, ha nem küldik be rá a patch-et 24 órán belül? :-)

1 szavazat

A hozzászóláshoz be kell jelentkezni

Nem szoktuk titkolni a konkrét eszközök gyártóját és típusát, de már éreztem hogy túl bonyolult lett a hibajegy így is ezért kiszedtem belőle pár dolgot. Ez mindig nehéz hogy mit írjunk le, ha keveset akkor jogos a felháborodás hogy sunnyogunk, ha sokat akkor millió levél jön vissza hogy nem értik. Szóval a plusz konkrétumok:

- Nem hardware hiba volt, az egyszerű, és kb magától megoldódó / helyreálló hiba.

- Szoftver hiba volt ami mindig macerás, gyártótól függetlenül.

- A konkrét SW hibás eszköz egy Centec Networks Goldengate ASIC-os, Centec Networks / FS.com switch amin IP Infusion SW fork fut.

- Miért így cseréltünk ahogyan? Mert ez a gyors megoldás, egy másik eszközre átállni több idő tesztelés és több a hibalehetőség is.

- Már a 2. hibánál felmerült hogy Cisco ASR9K legyen a dedikált route reflektor, de nem volt rá elég idő, legalább egy órával hosszabb lett volna a már így is hosszú hiba. Ugyanígy a Linux + FRR is felmerült, de dobtuk ugyanebből az okból.

- Nem véletlen hogy a 3. hiba után csak éjfél után tudtuk a másik gyártmányú route reflektort berkani, elég sok tesztet kellett előtte még elvégezni. Egyébként Cisco Nexus 9300 lett az új route reflekor, azért mert ennek a tesztelésével jártunk legelőrébb a lehetőségek közül.

Csemegének legyen itt az első log sor ami után borult minden:

Jun 11 10:07:45 <ip> BGP-3: <ip> Outgoing [ENCODE] extend attr: The remaining packet buffer (4) is not enough for encoding others attr, length of extend attr = 16

Nem tűnik vészes üzenetnek, de ez után jön a random BGP flappelés.

Üdv:

Angelo

13 szavazat

A hozzászóláshoz be kell jelentkezni

Még egy gondolat a SW supportról. Felmerülhet bennetek hogy ja persze, kínai a SW. (A HW mindig kínai, szóval az nem érdekes. :-)

Az eddigi tapasztalatunk az hogy az FS.com-nak egész jó a SW támogatása, a dokumentáció nagyon gyenge, de ha a konkrét hibát megírod nekik, kivizsgálják, külön support szerződés és díj nélkül, és kb 1 hét alatt megvan a debug, és plusz 1 hét múlva kapsz bugfixet, egy olyan SW release-t ami majd további 2-3 hét múlva jelenik meg a gyártó weboldalán.

Konkrétan mi mint RackForest kb 1-1.5 éve kezdtük el tesztelni az eszközeiket, és kb 1 éve használjuk is. A kezdeti időszkban talán 2 SW release is jött ki miattunk. :-) Illetve folyamatban van 1-2 SW feature is amit a mi kedvünkért fognak a SW-be rakni.

Hasonló SW bugfix-el kapcsolatban Cisco-s tapasztalatom van, ott az ASR920 platformon volt egy elég csúnya ASIC programozási hiba, de sokkal lassabb volt a debug és a bugfix SW release is.

Illetve a kedvencem szintén egy nagy cégtől kb 1.5 évnyi levelezés és reklamálás (valamint kb 250MFt elköltése) után: "This is a side effect of a known limitation." Megoldás: "We will update the documentation about this limitation".

De ez mind teljesen mindegy amikor egy SW hibát kb azonnal kellene megoldani, erre nincs idő akármennyire jó supporod van akárkitől. Csak a workaround-ok jöhetnek szóba.

Visszakanyarodva az eredeti kérdésre, igen az FS.com-os IP Infusion-ban érzésre több a SW hiba mint más nagyobb brand gyártóknál, de a nagyobb cégeknél is estem már pofára ilyen esetekben. (És ahogyan írtam van hogy közlik, hogy nem is javítják a hibát.) A tanulság hogy mindent alaposan le kell tesztelni mielőtt élesbe menne, de sajnos a terheléssel és skálázhatósággal kapcsolatos dolgokat nem igazán lehet letesztelni előre.

Üdv:

Angelo

Update: A félreértések elkerülése végett, az FS.com kb olyan matricagyár mint a HP. :-) Nem minden FS.com switchen van IP Infusion, és nem mindegyik Centec ASIC-es. Itt konkrétan az S8050 és S5850 eszközökről van szó, ezekben ugyanaz a bináris sw image fut. Ezeknek a gyártója és SW fejlesztője a Centec Networks.

13 szavazat

A hozzászóláshoz be kell jelentkezni

csak megerositeni tudom, ha van is hiba FS oldalon a supportjuk kiemelkedo.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Köszönöm a lényegi és tartalmas választ. Érdekes és tanulságos, de érintett nem vagyok.

2 szavazat

A hozzászóláshoz be kell jelentkezni

Mondjuk bennem a partoldalról felmerül a kérdés, hogy BGP route reflektort miért egy switch processzorán akarunk futtatni, "normál" x86-os szerver helyett... jó, persze, azt mondjuk értem, hogy így elvileg van rá support, míg ha Linuxon futtatok valami open source cuccost, akkor arra annyira nagyon nincs.

0 szavazat

A hozzászóláshoz be kell jelentkezni

mivel ennyire mélyen nem írták le a belső infrastruktúrát, én inkább azt feltételezem, hogy a RR eddig VM-en futott, n db (nem dedikált CPU-val) aztán kapott y db dedikált CPU-t (amikor kiderült, hogy kevés) majd végül fizikai vasat.

A másik része, hogy attól, hogy opensource - nem jelenti, h nincs rá support...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Általában egy tankönyvi VxLAN topológiában a TOR (Top of Rack) switchek a Leaf eszközök, és az aggregáció a Spine, és a Spine-ra rakják rá a BGP route reflector funkciót. Nagyon ritka hogy ne a hálózati eszközön fusson a BGP RR.

Nagyon sok gyártó nem szereti / támogatja ha nem az ő SW-ük a BGP RR. Pl Nexus switchek, FRR-es BGP RR-el, ez nem igazán támogatott hivatalosan.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A nexus-ban is és már minden újabb catalystben is van x86 processzor pont a szoftveres fejleszthetőség miatt is. Tessék kapaszkodni, catalyst switchekre a funkciók már docker konténerben fognak érkezni, azok, amiket még nem tudunk.

0 szavazat