Előzetes infókat adott ki a Facebook Engineering csapat a nem tervezett leállásról

Címkék

A Facebook Engineering csapat és a vállalat technikai igazgatója nagyon sajnálja a 4-6 órás nem tervezett leállást.

 

Eddigi információik szerint backbone router-eken történt konfigurációs változtatás okozta a kiesést:

Our engineering teams have learned that configuration changes on the backbone routers that coordinate network traffic between our data centers caused issues that interrupted this communication. This disruption to network traffic had a cascading effect on the way our data centers communicate, bringing our services to a halt.
A problémát súlyosbította, hogy a leállást okozó probléma számos, napi ügymenetben használt belső eszközt és rendszert is érintett és ez tovább gátolta a gyors diagnózis-felállítást és hibaelhárítást:
The underlying cause of this outage also impacted many of the internal tools and systems we use in our day-to-day operations, complicating our attempts to quickly diagnose and resolve the problem.

Részletek itt.

Hozzászólások

Ilyenkor azért megnyugszom, hogy ott, ahol szinte korlátlan - humán, anyagi, eszköz-beli erőforrások - állnak rendelkezésre, ott is előfordulhatnak ilyen nem tervezett, óriási anyagi vonzattal járó leállások. Ha belegondolok, hogy mi itthon ezekhez képest milyen lehetőségekkel dolgozunk, azt hiszem, hogy lehetőségekhez képest nem is végzünk rossz munkát.

A CTO-jukat nem irigylem.

trey @ gépház

A "ti" rendszereiteket nem ismerem, arrol nem tudok nyilatkozni, de a Facebook-kal (vagy akar AWS, Google, stb.) szemben a tobbes szamot (leállások) nemikepp tulzonak erzem megha szam szerint egynel tobb esetrol is van szo a ceg torteneteben. Valaki lejjebb emlitette, hogy mondjuk 2 evente fordul elo egy ilyen eset, nem neztem utana, de nekem meg ennel is ritkabbnak tunik.

Olyan sincs naluk, hogy "tervezett karbantartas", legalabbis en nem lattam olyat a login helyett, hogy bocs, gyere vissza hetfo reggel.

Szoval nem tudom, ki az a "Ti", de az itthon altalam gyakran hasznalt IT rendszerekkel (Telekom, Vodafone, ELMU, Fogaz, stb.) az elfogadhatonal joval gyakrabban fordul elo es velemenyem szerint rendszerint az indokoltnal hosszabb leallasok is. Lasd pl. Vodafone 5 napos leallas, wtf??

Szoval ezek a rendszerek kontra Facebook: eg es fold.

Az en olvasatomban a tobbes szam arra vonatkozott, hogy mindegyik nagy cegnel elofordulhat/elofordult leallas, nem feltetlen arra, hogy a facebooknal tobb leallas volt.
Pl: Azure outage-ek: https://www.zdnet.com/article/microsoft-heres-what-caused-our-recent-az… https://www.zdnet.com/article/microsofts-latest-cloud-authentication-ou…
AWS outage: https://www.theverge.com/2020/11/25/21719396/amazon-web-services-aws-ou…
Google outage: https://techcrunch.com/2020/12/14/gmail-youtube-google-docs-and-other-s…

stb.

vagy ami viszont egeszen elcseszett, amikor alulmeretezik / nem loadtestelik rendesen  a rendszert:
Erste: https://budapestkornyeke.hu/erste-bankos-vagy-jol-megszivtad-mert-a-hul…
BME/Neptun barmelyik felev targyfelvetel :)

Azért idén már volt két leállás a facebooknál, és a 6-8 éves vagy régebbi fényképeim azok szeretnek eltűnni. Simán nulla bájtosra változik, és ha bejelentem, még csak nem is válaszolnak. Amíg UPC netem volt összesen egyszer volt tervezett leállás, és áramszünet miatt is volt, de olyankor nálam is szünetelt az áram :D.

szerencsére a sok geniusz azért forgatja fejben a piros-fekete fákat, meg optimalisan bejárják az összes gráfot.

 

én azé lennek a CTO... :-)

évente - 2évente jön 1-1 ilyen rövid bazdmeg, igazan nagy meg a cikkek szerint csak 10 évente, ezt ki lehet bekkelni stressz szinten akkora fizetésért amit ez a cto felvehet érte. Eleve ilyen magasra már csak 7próbás gazembereket ültetnek be, tényleges műszaki ember ilyen helyeken ritka mint a fehér holló. Az infrastruktúra problémákat úgysem neki kell megoldania, vannak alatta 5-6 szinten keresztül még léhűtők és okoskodók, aztán legalul vannak kumárék akik basztatják a rútereket. A cto kiadta tegnap este az ukázt, h. ilyen többet nem fordulhat elő, és ezzel meg van oldva. 

Idehaza biztos van 1 csomó IT munkakör, amiben napi szinten sokkal több a stressz, és még lófaszt se fizetnek érte.

Aki becsületesen és nem csak a pénz miatt vállal felelősséget és igényes a munkájára, azt nem feltétlen csak az foglalkoztatja, hogy meg van-e érte fizetve. Frusztráltsága, rossz érzése, a rajta levő felelősségből adódó idegi terhelése stb. lehet akkor is, ha megfizetik. Ráadásul, ezt a pénz nem orvosolja.

Érdekes megfigyelés: én probléma esetén pl. nem arra szoktam gondolni, hogy mennyi fizetést utalnak havonta, hanem azt, hogy mikor és hogyan tudjuk a hibát mihamarabb elhárítani, a hiba milyen problémát okozhat a felhasználóknak, az ügyfélnek stb.

trey @ gépház

hanem azt, hogy mikor és hogyan tudjuk a hibát mihamarabb elhárítani, a hiba milyen problémát okozhat a felhasználóknak, az ügyfélnek stb.

Ilyen van?! Vagy ez csak a PR része?
Nálunk a fiúk mindig azért izgulnak, hogyan tudnánk letagadni, hogy nálunk volt a hiba, és mit okozhat nekünk egy esetleges jóvátétel kifizetése.
Jelenleg is két fronton küzdünk, hogy ne tudják ránk húzni a vizes lepedőt.

Nem az a lényeg, hogy ki adja ki a parancsokat. A FB-nél sem a műszaki vezető túrja a DB-t. Az a lényeg, hogy ki fogja össze a projektet.

Egyébként mit értesz te itt üzemeltetés alatt? Ha azt nézem, hogy ki volt itt a 0. perctől a jelen percig végig, az kizárólag én. Emberek jöttek, mentek közben. Ahogy az élet más területén is.

trey @ gépház

Természetesen ez kultúra. Nálunk erre szocializálják a fiúkat.
El is gondolkodom egyre gyakrabban, hogy jó helyen vagyok-e.
Amikor igyekszem az őszintébb, nyitottabb kommunikáció és a segítőkészebb hozzáállás felé terelni az ügyeket, egyből elásnak a béka segge alá. Nehogy valaki még meghallja és komolyan vegye.
Tudod milyen stresszes és kimerítő folyamatosan hazudni?

Amikor igyekszem az őszintébb, nyitottabb kommunikáció és a segítőkészebb hozzáállás felé terelni az ügyeket, egyből elásnak a béka segge alá.

Ilyenre én is emlékszem. Az egyik első Agile projektem során csodálkoztam rá arra, hogy az én cégem emberei, miközben verték a mellüket, hogy Agile így meg úgy, közben baromira titkolóztak az ügyfél előtt, hazudtak a hátralévő munka mennyiségéről, hazudtak arról, hogy mi volt kész és mi nem, stb. Az indoklás az volt, hogy ha az ügyfél tudná az igazságot, akkor negatívan reagálná le. Eközben persze az ügyfél is az Agile megközelítést szavak szintjén baromira támogatta.

disclaimer: ha valamit beidéztem és alá írtam valamit, akkor a válaszom a beidézett szövegre vonatkozik és nem mindenféle más, random dolgokra.

Nálunk a fiúk mindig azért izgulnak, hogyan tudnánk letagadni, hogy nálunk volt a hiba

Meglehetősen hibás stratégia. Ha valamit elszúrok (vagy a csapatban valaki), akkor el szoktam mondani, hogy igen, ez és ez volt a hiba pontos oka (nem feltétlenül konkrét nevekkel, mert nem az a cél, hogy valakire ráhúzzuk a vizes lepedőt).

Mivel nem szoktam elfedni a hibaokokat, így ha nem nálunk volt a probléma, azt is könnyebben elfogadják, mert megszokták, hogy elismerem, amikor a hiba nálunk volt. Persze nem ilyen egyszerű az élet, de sokat segít ez a hozzáállás.

"a vállalat technikai igazgatója nagyon sajnálja a 4-6 órás nem tervezett leállást"

Ez most azt jelenti, hogy ők sem tudják, mennyi volt a kiesés, vagy csak még nem derült ki a hírekből?

Mivel a cégek rászoktak, hogy akár nincs saját weboldaluk és az ügyfélkezelést is a Facebookon végzik, azért az elég nagy impact, hogy ezen cégek weboldal stb. egy időben leállt. Nem beszélve a Messenger felhasználókról ... Ha megnézed, hogy a cég értéke a magyar GDP egyharmadával zuhant, akkor azért ez nem kis leállás volt.

trey @ gépház

és vegyük ehhez még hozzá azt a rengeteg rosszul megírt okostelefon appot amelyiknél a facebook chat-es helpdesk be van építve. A fejlesztők annyira biztosnak hitték, hogy ez mindig elérhető lesz, hogy valószínűleg nincsen benne rendes hibakezelés és volt olyan app ami a leállás alatt a betöltésnél elakadt azért, mert nem tudta feloldani a facebook.com-ot.

Alapvetoen azert nem velejeig romlott a Facebook szerintem.

Mivel a cégek rászoktak, hogy akár nincs saját weboldaluk és az ügyfélkezelést is a Facebookon végzik

A sarki zoldseges vagy fodrasz eseteben a FB meg mindig jobb alternativa, mint megkerni a kozepiskolas fiut/unokat, hogy dobjon ossze egy animgifes borzadalyt.

Szerintem az animgifes frontpage weboldalon a mi generációnk ragadt meg, akik a '90-es években talalkoztak ezzel először. Aki ma tanulja a weblap készítést, és a tanára nem az előzőekben leírt szinten üzemel, az mai színvonalú oldalt fog összedobni. Annak a produktumnak a  javascriptframework rákos bloat burjánzás lesz a baja, nem pedig az animgif.

Nem mondtam, hogy az lenne az üdvözítő. De ami most van, az szörnyű, tele van az internet (bőven többségben) ténylegesen rosszul megírt, valóban erőforráslazarló webalkalmazásokkal (amiket természetesen évente valami új framework-kel "fejlesztenek"..), amik ráadásul kliens-oldalon generálódnak, nehogy a szervert terheljük és még sorolhatnám napestig. Ez így nagyon nem jó, ha programot akarok használni, letöltöm és telepítem, egy weblap, amit megnyitok, ne legyen az. Nyilván ez a szubjektív véleményem, mielőtt..

Ez így nagyon nem jó, ha programot akarok használni, letöltöm és telepítem, egy weblap, amit megnyitok, ne legyen az. Nyilván ez a szubjektív véleményem, mielőtt..

Ertelek, de en ugy latom, hogy pontosan ez tortenik: letolt a browser egy progamot, amit nem kell telepitened, csak hasznalod. Cross-platform, nem terheli nagyon a szervert, kurva sok usert ki lehet szolgalni, reszponziv, mukodik. Eroforras kell neki dogivel az biztos, de ez ilyen. Ha tud valaki jobbat, alljon elo vele. Google azert megprobalt mindent es megirta a vilag leggyorsabb JS motorjat, viszont egyelore mas elorelepesrol nem tudok. Osszessegeben en orulok, hogy nem kell telepiteni programokat amiket aztan nem birok eltavolitani. Most az uninstall kb. a browser ablak bezarasa. Mar egy virtualizalt windowsra sem vagyok rakenyszeritve ami meger egy kis extra eroforrast.

Szerintem pontosan érted mire gondoltam. Másrészt:

nem terheli nagyon a szervert

Szerintem pedig inkább a szervert terhelje, mint az én kliensem, köszönöm. Én régimódi vagyok, ha használni akarok valamit, ahogy írtam _én_ letöltöm, _én_ telepítem, stb., ne egy böngésző tegye ezeket helyettem, a saját infrámat terhelve vele.

Lépni sem lehet tényleg a webalkalmazásoktól, ráadásul ami különösen visszatetsző, hogy sok "mobilalkalmazás" is valójában egy webview wrapper, aztán nesze neked..nekem ezek és az ehhez kapcsolódó folyamatok nagyon nem tetszenek, nem vagyunk egyformák.

Szerveroldali eroforrasok es infrastruktura draga, a kliensoldali meg kihasznalatlan. Ott van elotted 2-4-8-16 mag + ugyanennyi giga ram es nyomogatod a semmilyen eroforrast nem igenylo weboldalakat, mikozben a tuloldalon meregdraga brand szerverek izzadnak, hogy elbirjanak par millio felhasznalot. Eredmeny? Draga uzemeltetes -> fizetos szolgaltatasok. 

Nem, koszonom. Inkabb tekerje meg egy kicsit az otthoni gepemet a JS, de ne kelljen ELMU.exe-t telepitenem a virtualizalt windows-omra, hogy oraallast tudjak jelenteni. Fizetni vegkepp nem szeretnek erte.

Mobilalkalmazasokra nekem par kiveteltol eltekintve (Spotify, Netflix) nekem semmi szuksegem. Ott van azon is a bongeszo es a 8 magos proci. Mukodjon. (amugy Spotify is zenelhet bongeszobol)

De ettol fuggetlenul ertem az allaspontodat, csak nem ertek vele egyet.

Dehogynem! A sok norminak ez világvége volt, hogy nem lehetett a rettenet színvonalas faszbukon lájkolni vagy megosztani az agyrohasztó szarjaikat, pár órát muszáj volt értelmes dolgot csinálniuk helyette. Lelki válságként élték meg. Adná isten, hogy az egészet lehúzzák egy napon a klotyón, de olyan nem lesz. Akkora globális függőség van tőle, hogy az embereket nem lehet levakarni róla. Én a mai napig nem tudom megérteni, hogy mi a FB-ban a nagy szám, meg az a güzü szemű szerencsétlen cukkerburg a nagy kamu semmiből hogy épített ilyen média-megabirodalmat, hogy kisajátította az egész internetet lényegében.

“I didn’t start using Linux so I could have friends.” (Luke Smith, 2019) 🐧

Némileg ellentmond mindennek, hogy tegnap a következőt kaptam:

# host facebook.com

Host facebook.com not found: 3(NXDOMAIN)

Szóval volt itt más is. Nem csak az IP-k voltak elérhetetlenek, hanem a DNS is.

<off>Telegramra több millióan reggeltek be tegnap este ;) </off>

http://plazmauniverzum.hu <> A látható anyag 99.999%-a plazma <>

Nevetséges, hogy milyen sokan használják ezt a fost még a hírekben is benne volt, amúgy észre se vettem volna.

https://digx.hu

akkor is ilyesmi belső hibát etetnének a plebs szájába ha belső/külső támadás lett volna, én utóbbira fogadnék