Tegyük fel h. nem-kivédhető katasztrófa történt, amire nincs 3kattintásos azonnali forgatókönyves megoldás.
Mint például?
Alapvetően két opció van:
a, a rendszer önerőből, humán beavatkozás nélkül visszaáll üzemszerű állapotba,
b, el kell indítani a DR-t, a rendszer önerőből, humán beavatkozás nélkül visszaáll mentésből üzemszerű állapotba a DR alapján.
Az SRE lesz az aki hazaszól az asszonynak h. most 3-4 napig nem látsz babám, a gyereket most te hozod-viszed oviból, az esti program is lemondva a hét hátralevő részében (hétvégét is beleértve természetesen), nyaralni mentünk volna 2 nap múlva de az is sztornó?
Neked nagyon be van ez ragadva... igen, értem, 10-15 évvel ezelőtti üzemeltetési környezetben ragadtál és halvány fogalmad nincs arról, hogy jelenleg hogy szokás üzemeltetni magas rendelkezésre állású rendszereket.
Nincs "pet", "cattle" van. Nem gyógyítjuk a háziállatként tartott szervert, nincs mit nézni 3-4 napig. Leöljük, ha köhögött egyett, script felhúz nulláról újat helyette, adatok automatikusan mennek rá snapshot + a replication journal alapján és megy minden tovább. Nem megyünk be simogatni a szervert, nincs CLI toszogatás, nincs kattingatás, manual olvasgatás. Leöljük, indul a másik helyette. Ha az egész DC leállt, akkor a másik DC átveszi a melót, felskálázza magát. Ha a másik DC is megállt, akkor mentésből felhúznak script-et mindent egy harmadik DC-ben. Ha a mentés sincs, akkor meg már mindegy.
Erről szól az SRE munka, nem arról, hogy 3-4 napig szopnak, az a te világod, a te életed.