Teszemazt egy site reliability engineer munkakör egy nagy multinál erről szól?
Nem. A SRE arról szól, hogy lehet mindezt automatizálni. Tehát egy jó SRE esetén a PH eset úgy zajlott volna le, hogy július 22-én, 11 óra 30 perckor jött volna egy warning, hogy az egyik node problémás, az orchestration ezért tolt rajta egy drain-evict-poweroff triót, átmozgatta az ott futó szolgáltatásokat máshova, behúzott helyette a hw pool-ból egy új gépet, felhúzta rá a korábbi állapotot, storage sync után betette, mint használható node. Mindez kb. service disruption nélkül.
Az SRE dolga az, hogy ez így történjen, amit leírtál, az nem az SRE munkakör, hanem annak az ellentéte vagy hiánya.