Lekönyökölt a Netflix streaming rendszere a Jake Paul vs. Mike Tyson mérkőzés alatt

Aki fent maradt éjjel megnézni a Jake Paul vs. Mike Tyson eseményt a Netflixen, az valószínűleg szentségelt jó párszor, mert a minden idők egyik legnagyobb élő streaming közvetítéseként beharangozott műsort számtalanszor szakították meg technikai problémák. Gyakori volt a disconnect, a pufferelés. A boxrajongók egy része feldühödött, és elkezdte lemondani a Netflix előfizetését. Elszabadultak a mémgyárak is, a Twitter tele van a haragos / szarkasztikus kommentekkel.

Érdekes a dolog, mert a mérkőzést hónapokkal ezelőtt kezdték előkészíteni, promózni. Sőt, Tyson betegsége miatt hónapokkal el is halasztották, vagyis a Netflixnek lett volna ideje megfelelően felkészülni technikailag.

Azért meglepő ez, mert itt a HUP-on (saját bevallásuk szerint) számos szakértő van, aki kisujjból kiráz egy olyan rendszert, ami on-demand skálázódik az igényeknek megfelelően. De akkor mi lehetett a probléma? A FreeBSD? Nem volt elég pénz? Nem volt elég idő? Inkompetencia? Írd le a hozzászólásokban!

Hozzászólások

Szerkesztve: 2024. 11. 16., szo – 11:57

Lehet hogy sok szakerto van aki sajat bevallasa szerint kisujjból kiráz egy ilyen rendszert, de a szaktudas mar sokkal kevesebb van. Nem akarok megbantani senkit, egyszeruen limitalt a megszerezheto gyakorlat. Limitalt hogy hany ceg foglalkozik magyarorszagon ilyesmivel. Olyan nincs hogy on demand skalazodik a vegtelenbe es tovabb ... Es nem csak technikai okai lehetnek. Felhuzni exrta infrat csak ezert az egy esemeny miatt, meg ha nem is fizikai infra volt, lehet hogy egy manager kiszamolta azt mondta eddig es nem tovabb, es az eddig keves lett. Nem hiszem hogy a Netflix ne tudna barmilyen adott meretu infrat felhuzni es megfelelo SLA-vel uzemeltetni. Itt vagy a forgalom becsles volt helytelen vagy a penz nem volt eleg.

>akkor mi lehetett a probléma?

A Netflix nem a Hupról veszi fel a dolgozóit. Simple as.

Kiváncsi lennék a számokra, hogy hány egyidejű néző volt (lett volna). Nem volt még nagyobb live streaming esemény, ami gond nélkül lement? El tudom képzelni, hogy nem a Netflix volt a hunyó, hanem a hálózat nem bírta a terhelést. Ha mondjuk egy szolgáltatónak a routerei telítődnek és amiatt nem működik a streaming, akkor azzal a Netflix semmit nem tud csinálni (a jelenleg divatos technológiák mellett).

Ha belegondoltok az élő események streamingjét meg lehetne oldani úgy is, hogy a hálózat minden csomópontjához 1db stream megy, és a hálózati elem osztja szét mindenkinek ugyanazt. Így biztosan működött volna, csak hát a privacy miatt mindenkinek közvetlenül a Netflix szervereihez kell csatlakozni (https protokollon), és így a forgalom megsokszorozódik mind a szervereken, mint a hálózaton. Ki kellene dolgozni egy szabványt erre is, hogy a hálózati szolgáltatónál lehessen végződtetni az SSL-t például.

És mi lett a vége a küzdelemnek? (Nem, nem fogom megnézni, annyira nem érdekel.)

Mint mindig a problema nem ilyen egyszeru, mi van ha kesletetve nezem, megallitom. Mint mindennek gondolom az online stremingnek is megvan a sajat domain tudasa amit csak akkor tudod ha csinalod 1000 millio kis buktato, scenariok amik nem latszanak abbol ahogy hasznalod. Aki komolyabban foglalkozott complex rendszerek fejlesztesevel tudja hogy ezt 0-rol felszedni nagyon nehez. Ez en cegemnel is minimum fel - 1 ev mire egy senior fejleszto beletanul es kb erti mit es miert csinal.

Netflix skálázódik max X-re, és most a leterheltség nagyobb volt mint X?

Magyar szerverek _nem_ skálázódnak, ezért ha nagyobb terhelés van rögtön letérdel?

A magyar állami informatika még ott tart, hogy basszunk alá egy combos szervert és majd az elbírja (tapasztalat). Ha nem, akkor túlterheléses támadás.

Biztos igazad van, pont igy működik az online pénztárgép projekt, az e-magyarország, az eeszt, a nav adatbányász datalake-je és még száz másik állami IT projekt. Mind-mind 1 darab combos szerves.

(amikor a politikai vakultság átveszi az irányitást a szakmai értelem fölött, akkor születnek ilyen nagy butaságok)

Nem tudom, hogy mire látsz rá, de a kijelentésed, hogy a magyar állami informatika itt tartana, az tényszerűen nem igaz.

Nagyon komoly rendszerek készültek az utóbbi években és elég jól is futnak. (de nyilván léteznek 1 gépes játék-rendszerek is)

Biztos igazad van, pont igy működik az online pénztárgép projekt, az e-magyarország, az eeszt, a nav adatbányász datalake-je és még száz másik állami IT projekt. Mind-mind 1 darab combos szerves.

Ezek egyike se skálázható, össze is omlottak, összeomlanak és össze fognak omlani, amikor fixen letett szerverpark kapacitását eléri az igény és ugyanúgy fizetni kell éjjel és hétvégén is, amikor töredéke a terhelés, de végülis pénz van rá, hiszen nem profitorientált cég és nincs versenytárs se, ami olcsóbb lenne és átmenne oda az ügyfél, mert nem tud.

Nem skálázható? Tehát azt mondod terveztek egy 500 szerveres elosztott rendszert, ami szépen működik, de nem lehetne egy 501. szervert betenni, hiszen nem skálázható? Itt most tényleg valami verseny megy, ki tud nagyobb hülyeséget összehordani?

Egyáltalán tudod honnan indult a szál? Hogy az állami IT még ott tart, egygépes, combos szervereken üzemeltet szolgáltatásokat, amiről nyilván kiderült, hogy komplett hülyeség. Ezek skálázható, sokszáz-ezer gépes elsztott rendszerek, amik kurvára skálázhatóak. Hogy lefelé ne lennének skálázhatóak, azt se tudom milyen agymenésből gondolod, de összevág a többi zagyvasággal.

Hogy már a fillérbaszást is belekevered, csak hogy valami még nagyobb hülyeséget mondjál, az tényleg csak hab a tortán, és nyilván arról sincs halovány fogalmad sincs, hogy mennyibe kerül és hogy mennyivel lenne olcsóbb valami publikus pistike bt-hez vinni. (és hogy menne a sikoltozás, ha valami publikus felhőbe nyomnák az adatokat)

Nem skálázható?

Nem.

Tehát azt mondod terveztek egy 500 szerveres elosztott rendszert, ami szépen működik, de nem lehetne egy 501. szervert betenni, hiszen nem skálázható?

Egyrészt nem csináltak 500 szerveres elosztott rendszert. Másrészt a skálázható rendszer nem azt jelenti, hogy be lehet-e tenni egy n+1 szervert, hanem azt, hogy a rendszer teljesítménye ettől n+1 lesz. Igen nagy különbség.

Itt most tényleg valami verseny megy, ki tud nagyobb hülyeséget összehordani?

Fogalmam nincs, te szoktál gyakran hülyeségeket írni. :)

Használtad például már az ÁNYK-ból a közvetlen dokumentum feltöltést? Na, annak a szerver oldalát én írtam.

Hogy az állami IT még ott tart, egygépes, combos szervereken üzemeltet szolgáltatásokat, amiről nyilván kiderült, hogy komplett hülyeség. Ezek skálázható, sokszáz-ezer gépes elsztott rendszerek, amik kurvára skálázhatóak. Hogy lefelé ne lennének skálázhatóak, azt se tudom milyen agymenésből gondolod, de összevág a többi zagyvasággal.

Ahja, az állami IT ott tart, hogy jó előre meg kell rendelni mindent és nincs olyan, hogy a forgalomtól függően skálázható, hanem be van tervezve egy maximális terhelés és annyi van megvásárolva. Ne téveszen meg, hogy felhőt írnak itt-ott, az nem az a felhő, amire te gondolsz ilyenkor. Amúgy melyik az a skálázható sokszáz-ezer gépes elosztott rendszer, amiről beszélsz?

Hogy már a fillérbaszást is belekevered, csak hogy valami még nagyobb hülyeséget mondjál, az tényleg csak hab a tortán, és nyilván arról sincs halovány fogalmad sincs, hogy mennyibe kerül és hogy mennyivel lenne olcsóbb valami publikus pistike bt-hez vinni. (és hogy menne a sikoltozás, ha valami publikus felhőbe nyomnák az adatokat)

Remek szalmabábjaid vannak. :D

Netflix majd megosztja az RCA-t pár napon belül. A legközelebbi konferencián esélyes h. lesz netflix engineer-től YT-on megnézhető előadás a témában.

Valóban szomorú, h. ezt a tudást autodidakta módon egyszerűen nem lehet felszedni sehogy máshogy. Ha ehhez tényleg érteni akarsz, muszáj vagy valahogy bejutni egy google, netflix, meta-hoz, amazonhoz v. mikroszofthoz, h. ilyen nagyságrendű infrával képbe kerülj. Aztán eltölteni 10-15 évet, miközben jutsz feljebb a ranglétrán, mert alsó szintű üzemeltető droidként sosem lesz lehetőség látni a nagy egészet. Ez nem az a játszótér, h. max. előfizetsz egy havi 10 dolláros VPS-re amin ki tudod tesztelni.

Ugyanitt jelentkezhetnek az atomerőmű üzemeltetésben jártasak, a Burj Khalifa méretű épületeket megépíteni képes emberkék, és még millió más terület top 1 ezrelék expertjei.

Nincsen itt semmi látnivaló, a gond az volt, hogy nem nem offline, hanem online tartalom.

A netflix és hasonló szolgáltatók a tartalmalmakat a ISP-khez letolt szerverekről szolgálják ki, éjjel letöltik a filmeket és igazából, ott helyben nézi a helyi ügyfél. Live streamnél ilyen lehetőség nincsen. Így a sávszélesség igény, globálisan is többszöröse a megszokottnak ...

Fedora 41, Thinkpad x280

Live-nal is megvan a lehetoseged, hogy az ISP-kez lerakott serverek offloadoljanak, azt nemtudom, hogy az OCA-k kepesek-e erre, de az biztos, hogy nem erre lettek kihegyezve.

Egyebkent ezt az ejjel letoltjuk nappal kiszolgaljuk dolgot kb csak ok csinaljak, kb minden masik streaming szolgaltato 3rdparty generic cdn-ekkel dolgozik, ahol bar tudnak pre-warmingolni, de az azert nem ugyanaz.

Szerkesztve: 2024. 11. 16., szo – 15:16

<Lassan írok :)

Logikusan gondolkodva, de csak egészen általánosságban: a Netflix egy on-demand szolgáltatás, ami teljesen más tészta, mint a live streaming. A Netflix technológiailag az on-demand-ra van kihegyezve, ezért is tesznek le minden ISP-hez egy (több?) Netflix szervert, hogy a tévénézők minél közelebbről tölthessék le a filmeket (amiket ott helyben a Netflix szerverein tárolnak). A live streamingnél erre hiába játszol... nyilván a Netflix szerver live streamingnél is hihetetlen előny, mert ugye a közvetítő szervernek csak annyi klienst kell kezelni, ahány Netflix szerver van. De ettől függetlenül nem ez az, amit mindig is csináltak eddig, tehát bárhol elcsúszhattak a banánhéjon.

Most megnéztem a downdetector-on, már a meccs előtt kezdődtek a problémák: https://downdetector.com/status/netflix/ lehet, hogy nem is (csak) a live streaming volt a probléma, hanem több egymástól független dolog játszhatott be és a meccs csak rátett egy lapáttal. Nem lehetett könnyű estéje a technikai csapatnak --- ha adnak ki RCA-t biztos érdekes lesz.
 

Kb a cloudflare és a netflix azok akiknek komolyan vehető RCA doksijaik vannak. Mikroszoft csak akkor készít jó RCA doksikat, ha épp a faszukat akarja levágni az egész világ valami kolosszális.elbaszás miatt. A kisebb RCA-ik a "..hmm valami miatt nem ment, átterheltem egy másik DC-re... solved, ticket closed"

Ja, hát streamelni szeretnénk a fél világnak, de a global multicast-ot még továbbra sem valósítottuk meg.

Pedig az ilyen helyzetekben nem kevés sávszélességet lehetne megtakarítani. Persze addig, amíg mindenki élőben nézi, és egyszer sem állítja meg a felvételt, bár éppenséggel ezt is meg lehetne oldani némi kompromisszumokkal a kliens oldalon.

Szerkesztve: 2024. 11. 16., szo – 20:03

Elmérték az igényeket, nem skálázták fel időben és előre annyira az infrastruktúrát, amennyien végül kíváncsiak voltak rá: 120 milliónál több néző esett be végül, a 280 milliós ügyfélkör több mint harmada, majdnem fele. Összehasonlításul, az Olimpia live stream esetén 30 millió néző volt a maximum a több hetes esemény alatt és ott nem voltak ilyen rövid és ilyen hirtelen felfutások. Hirtelen beeső nem várt terhelést egyszerűen nem tudsz kiszolgálni, ha nem tudod előre felmérni a várható terhelést, akkor az össze fog omlani, legyenek ott a legjobb szakemberek és a legjobb rendszerek, a resource pool ott kell legyen előre.

Amit letettek az asztalra, az több mint amit eddig bárki tudott, összevetésül, az X/Twitter Spaces például 500-600 ezer nézőtől összeomlott idén nyáron többször is és abban nem volt videó, csak hang, a YouTube stream maximum nézőszáma 8 millió volt eddig, a legnagyobb Twitch nézőszám 3,8 millió volt.

Nekik beesett 120 millió és 120 millióig röccenés nélkül fel tudták felskálázni, utána jöttek a bajok, valószínűleg erre a számra terveztek, mint worst case scenario, hogy ennyi úgy se lesz. Lett.