A nagyja megvan

A hétvégén kezdődött az átállás az egyik nagyvállalatnál. Egy öregecske Debian failover clustert - amelynek az egyik lába az idők során elveszett - kellett újjáépíteni. Ami nehezítette a dolgot: időre. A megoldás a vállalat egyik legfontosabb rendszere. Nem véletlenül HA cluster, nem állhat le soha (csak igen-igen indokolt esetben).
Az előkészületek (és az előzetes tesztek) után úgy döntöttem, hogy Debian helyett Ubuntu-ból lesz összerakva a rendszer. Ezzel egyetértett Laci is, a vállalat informatikai vezetője. Használnak a gépteremben néhány - Windows-ok, HP-UX-ok, Tru64, stb. szerverek tömkelege mellett - Ubuntu-t és Debian-t is, így nem ismeretlen számukra.
A tervezés után telepítésre került a régi node helyett beszerzésre került új gépre az Ubuntu 8.04.1 Server. A telepítés során semmilyen probléma sem adódott az Ubuntu-val, nem kellett szívni. Annál többet egy hibás géppel - ami az átállás idejére ideiglenesen a node másik fele lett volna, de ez más kérdés.
Elkészítésre került a node-ok közt megosztott disk. A régi szerver adatai szinkronizálásra kerültek. Beállításra került a majdani cluster másodlagos (backup) lába. Amikor már a backup node-on megfelelően futottak a kívánt szolgáltatások, akkor az éles rendszer törlésre került, majd arra is feltelepült az Ubuntu 8.04.1. A megosztott diszk összeállításra került. Ezután - míg az 500GB-os partíció szinkronizálása be nem fejeződött - várakoztunk és pihentünk.
Mikor a szinkronizálás befejeződött, összeállításra került a Linux-HA megoldás. Az Ubuntu minden komponenst tartalmaz, semmihez sem kellett külső modul, vagy szoftver.
Miután a megfelelő szolgáltatások megosztásra kerültek a két node közt, az eredeti node (amin Debian-t futtatott) visszakerült a megfelelő szerepébe, azaz ő lett az master node.

A telepítés közben migálásra került több száz user, azok adatai. A munka végeztével az előzetes tesztek szerint minden adat migrálásra kerül. A szolgáltatások működtek, a szimulált hibára rendben megtörtént a failover, majd a master node visszatérte után az automatikus failback.

A munka szombaton reggel kilenckor kezdődött és vasárnap hajnalban 4 órakor fejeződött be (átmenetileg, mert van még mit tenni). A munkát csak a drbd szinkronizáció idejére függesztettük fel.

A rendszer úgy tűnik, hogy működik. Hogy mennyire végeztünk jó munkát, az hamarosan kiderül. Ma már élesben használják a rendszert.

Az alábbi szolgáltatások lettek failover-be telepítve:

  • webszerver és a rajta futó webes alkalmazások
  • adatbázis-szerver
  • SMTP-szerver
  • POP3S- és IMAPS-szerver
  • FTP-szerver
  • Freeradius-szerver

Hozzászólások

hardware-ekrol szabad tobbet tudni?
milyen vasakat csereltetek mire?

az ubuntu-osztottdisk-clusterezes-rol volt valami howto, vagy magatok talaltatok ki? Ezesetben egy rovid leirast csinalnal?

--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

"node-ok közt megosztott disk" milyen filerendszert használsz? Egyszerre tudják használni a diskeket vagy amikor az elsődleges kiesik a másodlagos felmountolja a particiót?

Itt az utóbbi van, ext3 filrendszerrel. De drbd-vel megoldható a "primary-primary mode", ha GFS, OCFS stb. filerendszereket használsz, de a készítők ezt nem javasolják éles felhasználásra.

Itt elviselik a failover alatti néhány másodperces kiesést, így nincs szükség az egyidőbeni használatra.

--
trey @ gépház

Már nem azért, de ha nagyvállalat, akkor miért kellett a DRBD-vel akcióznotok? Vagy annyira mégse nagy, hogy valami többportos storage-ra legyen elég pénz? :)

--
Ruby takes the elegance and simplicity of Perl, and mixes it with the library support of Lisp.

Ez a megoldás működött ott 4+ éve, bevált nekik, én pedig azt a feladatot kaptam, hogy a régi rendszert építsem újra. Munka az munka.

Egyébként elég nagy vállalat. Van HP Storage EVA, SAN, 50+ szerver, stb. Gondolom az volt a döntés alapja, hogy ami működött, azt miért bolygassák?

--
trey @ gépház

hali Trey, elérhető a dokumentáció?