Sziasztok,
a következő problémánk van. Adott két szerver gép, sok winyóval. Elsődleges, másodlagos felállásban. A gépeken lévő adatok szinkronitását drbd-vel tartjuk fent. De probléma, hálózati leszakadás, újraindítás esetén inkonzisztens a partíció és nulláról kezdi az adatok másolását. Nem is lenne baj, ha egy gigáról beszélnénk, de közel 12 TB átmásolásáról beszélünk. (sok csillió millió pici fájl) A szűk keresztmetszet nem is hálózat, inkább a wincsik olvasási sebessége úgy, hogy közben az elsődlegesen terhelés is van.
Olyan megoldást keresünk akár drbd-vel, akár máshogy, hogy ha az előbb említett "bajok" előjönnek, akkor mindig az utolsó állapottól folytassa a másolást és ne a nulláról. De ha van itt drbd szakértő akkor figyelek :)
Köszi!
- 11343 megtekintés
Hozzászólások
Nem tudom, hogy jó lehet-e neked, de talán egy próbát megér:
https://code.google.com/p/lsyncd/
♲♻♲
- A hozzászóláshoz be kell jelentkezni
valami parameterrel lehet allitani hogy mekkora legyen a buffer amiben tarolja hogy mik valtoztak amig a masik fele off-on volt. azt vedd nagyobbra
--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!
- A hozzászóláshoz be kell jelentkezni
Bocs h beleokiskodok, de ez nem igy van. A DRBD automatikusan a resource low level device-anak merete alapjan kalkulalja a metadata meretet, nincs beleszolasod. Meg a szamitasi keplet is benne van a manualban h leessen tervezni az "elveszett" disk spaceel.
En inkabb arra gyanakodnek ebben az esetben h valami bovli cluster megoldassal uzemeltetik a rendszert, ami node failure eseten kvazi invalidalja a kiesett slave-et, hiszen a drbd a meta adat reszt pont a megvaltozott blokkok nyilvantartasa hasznalja.
Ismerni kellene a konfigot es a kornyezetet, az h drbd az edeskeves. Most akkor pacemamer v RHCS v meg netan heartbeat. Nem egy heartbeatv2 clustert lattam mostanaban is, ami kifejezetten szar az elobb emlitett megoldasokkal hasonlitva.
- A hozzászóláshoz be kell jelentkezni
Activity Log idezet: If a temporarily failed node that was in active mode at the time of failure is synchronized, only those hot extents highlighted in the AL need to be synchronized, rather than the full device. This drastically reduces synchronization time after an active node crash.
--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!
- A hozzászóláshoz be kell jelentkezni
DRBD’s approach, since version 0.7, is a different one. The activity log (AL), stored in the meta data area, keeps track of those blocks that have "recently" been written to. Colloquially, these areas are referred to as hot extents.
- A hozzászóláshoz be kell jelentkezni
jelenleg heartbeat van
- A hozzászóláshoz be kell jelentkezni
.
- A hozzászóláshoz be kell jelentkezni
erdekes kerdes
- A hozzászóláshoz be kell jelentkezni
Váltsátok el mihamarabb corosync/pacemaker-re.
Simán lehet h. a heartbeat resource agent a szar és kapásból invaliddá varázsolja a leszakadt node-ot.
- A hozzászóláshoz be kell jelentkezni
(feliratkozás)
- A hozzászóláshoz be kell jelentkezni
ha más megoldások is szóba jöhetnek akkor 2 gép esetén Glusterfs.
drbd sux
- A hozzászóláshoz be kell jelentkezni
Drbd sux? Ez netto baromsag. Az adminon mulik h sux v nem :)
Glusterfs mirrorral jo gondolat. Esetleg IBM Gpfs. Lustre is jatszhat meg. Asszem OpenAfs is tud valami ilyen csodat btw :)
- A hozzászóláshoz be kell jelentkezni
Ez a GPFS, Lustre, AFS, stb olyan dolog amire mindenki mutogat, de dolgozzon vele az, akinek 7 anyja van! :)
Ha hibatűrő POSIX fájlrendszer kell, akkor szerintem a DRBD, a Glusterfs, a userspace cuccok (rsync, lsyncd, stb) és majd valamikor a Ceph ami említésre méltó.
- A hozzászóláshoz be kell jelentkezni
Mivel lassan valami ilyesmit kell csinálnom, ezért csak annyit kérdezek OCFS2-ről mi a véleményed? Illetve mi a bajod a GPFS, Lustre,AFS fájlrendszerekkel (az OCFS2 kivételével egyiket sem láttam közelről)?
- A hozzászóláshoz be kell jelentkezni
Nehéz őket beállítani és üzemeltetni. A GPFS ebből a szempontból kivétel, vele a legfőbb bajom, hogy nem olcsó, így mi csak kivételes esetekben tudjuk használni és mint ilyen, kis szigeteket alkot a rendszereinkben, miközben tetemes tudás kell a profi üzemeltetéséhez, szóval nem valami gazdaságos. Persze egy nagyvállalati struktúrában ez nyilván nem probléma.
OCFS2-vel az utolsó élményem 2.6.32-nél az volt, hogy 30%-os telítettségnél betelt, nem lehetett új fájlt létrehozni, mert a töredezettség miatt nem tudott 4MB egybefüggő területet lefoglalni az inode clusernek és game over. Ráadásul ezt még monitorozni se lehetett, a semmiből csapott le [1]. Emiatt aztán ő sem került soha production-be felénk. A GFS2 akkoriban fényévekkel előrébb járt, valószínűleg ez még most is igaz, de komplexebb architektúra kell neki.
Mindenesetre a shared-disk architektúrát érdemesebb elkerülni ha a teljesítményt skálázni kell, mert az nem lesz egyszerű és/vagy olcsó. Mi mára szerencsére megszabadultunk tűlük.
- A hozzászóláshoz be kell jelentkezni
OCFS felejtős, pont az általad leírtak miatt :)
GFS2, csak akkor meg lehet menni az RHCS felé, amihez meg egy heartbeatv1/2 szaki nem fog érteni, mert az nem egy fél resource agent és 3 sor konfig editálás, ha jól össze akarod rakni.
- A hozzászóláshoz be kell jelentkezni
Köszi, a fent említett bugba én nem futottam bele.
Ha jól "érzem" az a vélemény(etek), hogy a "klasszikus" cluster fájlrendszert hanyagoljuk.
Akkor mit helyette, ha nem akarom ugyan azt az adatot 2x tárolni?
- A hozzászóláshoz be kell jelentkezni
Nagyon mas megoldasod nincsen. Ha egyszer akarod tarolni az adatot es mondjuk shared storage-en, akkor ezek vannak. Ezek kozul pedig a GFS2 a legmegfelelobb. Ha nem csak HA-ra tervezel, hanem distributed megoldast is akarsz, akkor pedig a gluster jo valasztas. Ha nincs mas, csak ket szerver shared storage nelkul akkor en probalnam az eroforrasaimat szetszedni. Pl 2 drbd, az egyik az egyik node-on master a masik a masikon. Pl az egyik node a web szerver, a masik az sql es egymasnak replikai. Ebben az esetben k fontos a jo fencing, meg a plusz quorum, hiszen nincsen 3. Node-od h ha egy kiesik akkor dontesre vigye a kerdest h ki halt meg. Erre talaltak ki a qdisk-et.
- A hozzászóláshoz be kell jelentkezni
NFS-t is hasznalhat.
tompos
- A hozzászóláshoz be kell jelentkezni
Azért az elég másra van kitalálva, meg vannak vele gondok (security, scalablity).
Egy NFS-nél a replikáció is elég macera, ha distributed megoldást szeretne. Ha distributed megoldás, akkor meg GPFS cnfs-én kívül túl sok ötletem nincs, az NFS egyszerre két szerverről nekem nem értelmezhető fogalom, persze lehet tákolni DRBD+VIP+NFS kombót, de az megint olyan... sz*r :)
- A hozzászóláshoz be kell jelentkezni
Szerintem van létjogosultsága annak a felállásnak is, hogy: shared-disk + local fs (pl. ext4) + nfs és az egész egy aktív-passzív clusterbe. Persze a teljesítmény így másképp alakul mint cluster fájlrendszerrel, de lehet vele tervezni. Előnye, hogy pehelysúlyú és széles körben ismert eszközökre épít.
Bár az egymondatos "nem akarom ugyan azt az adatot 2x tárolni" rendszerspecifikáció alapján nem lehet messzemenő ajánlásokat tenni, csak sötétben lövöldözünk a fogalmakkal. :)
(BTW: a DRBD+VIP+NFS nálam teljesen sztenderd és jól működik.)
- A hozzászóláshoz be kell jelentkezni
Azért shared storage esetén szerintem luxus nem "kiélvezni" a shared FS előnyeit, ha az alkalmazásban meg lehet valósítani annak normális használatát. Ez főleg akkor igaz ha CPU és nem IO intenzív a task amiről beszélünk (tipkus PHP futtatásra gondolok :))
Tényleg vaktában lövöldözünk, de egész jól összerakjuk az "Egy elképzelt HA rendszer felállítása" című thread-et :)
- A hozzászóláshoz be kell jelentkezni
Mivel sok benne az elképzelt dolog, így minden szempontból jellemző lesz rá a "ha..." :-D
- A hozzászóláshoz be kell jelentkezni
ofkoz, ez egy full "ha" rendszer :)
- A hozzászóláshoz be kell jelentkezni
Jo esellyel az NFS gyorsabb, de legalabbis versenykepes lesz.
tompos
- A hozzászóláshoz be kell jelentkezni
Ezt a security reszt kifejtened?
A skalazhatosagnal meg mit akar it varialni, 2 node-ja van. Ha meg tobb lesz, megnagyobbat fog szivni a gfs-sel.
Ja, ha mar ott tartunk, h ami nem gpfs, akkor minden szar. He, topiknyito, bele se kezdjel.
tompos
ui.: Ha nem kell posix kompatibilis fs, akkor megneznem a mongodb-t es a mogilefs-t.
ui.: Ezelbol a felinformaciot bedobos topikokbol vhogy mindig eltunnek a topiknyitok.
- A hozzászóláshoz be kell jelentkezni
Krb nélkül az nfs az egy authentikációs rémálom, krb-vel meg konfigurációs rémálom. Lehet választani.
2 node-ja van, de nem mindegy h. mennyire szívás bővíteni hosszabb távon, bár lehet én vagyok túl előre gondolkodó típus.
Ami nem GPFS az nem szar, csak az ő cnfs implementációjuk az valóban jó, lehet ennek ellent mondani, de tök felesleges. Két szerverre meg még csak nem is olyan horror. Aztán ha valami nem jó, akkor lehet csesztetni a nagy kék supportját h. miért nem úgy megy ahogy, teljesen más, mint egy FOSS cuccokból építkező valami, de ezt gondolom te is belátod.
u.i.: a mongodb k. jó ötlet
u.i.2: ha túlnő rajtuk a feladat, akkor inkább minden marad a régiben, amíg megy megy alapon.
- A hozzászóláshoz be kell jelentkezni
> Krb nélkül az nfs az egy authentikációs rémálom, krb-vel meg konfigurációs rémálom. Lehet választani.
Az esetek kicsiny szazalekaban van authentikaciora szukseg. Mashogy kifejezve meg legtobbszor VM-ek ala kell, vagy ilyesmi, akkor meg minek?
Vagy epp szarnak az authentikacio-ra, mert mas okbol nincs ra szukseg.
> 2 node-ja van, de nem mindegy h. mennyire szívás bővíteni hosszabb távon, bár lehet én vagyok túl előre gondolkodó típus.
Igen, te vagy. Tobbnyire koegyszeru rendszerekrol van szo, egyszeruen nem kifizetodo semmi nagyobban gondolkodni. Ha meg a megvasarolasra lenne is penz, fizetni kell hozza az uzemeltetest, a frissiteseket, a vendor lockint, az OS-t, meg meg kitudja mit.
A koegyszeru, 20 eve rendszerint mukodo strukturabol meg lenne egy gpfs-es complex rendszer, aminek mas a celkozonsege.
> lehet csesztetni a nagy kék supportját h. miért nem úgy megy ahogy, teljesen más, mint egy FOSS cuccokból építkező valami
Nem ismerem konkretan az IBM supportjat, de nagyon rossz tapasztalatom van minden helyzetben, amikor a a ket kapcsolatban levo fel merete (pl. dolgozok szama, arbevetel) ugy 50-100%-nal jobban elter. Azaz a nagyceg eroszeretettel szopatja a kisceget, mint a torkosborz. Ebben az esetben tobbnyire szerencsetlen gazda ugyanugy a FOSS kozosseghez fordul.
> ha túlnő rajtuk a feladat, akkor inkább minden marad a régiben, amíg megy megy alapon.
Arra celoztam, h az emberek feltuno modon meg egy kerdest sem tudnak feltenni, vmint tobbnyire elvi szinten bunkosagnak tartom, ha felteszi vki a kerdest, aztan otthagyja a levegoben logni.
Persze a gyakorlatban ezer oka lehet, ami felmenti ez alol.
- A hozzászóláshoz be kell jelentkezni
Krb nélkül az nfs az egy authentikációs rémálom, krb-vel meg konfigurációs rémálom. Lehet választani.
Szerverekről beszélünk, minek ott authentikálni? Az esetek döntő többségében tökéletesen megfelelő az a megoldás, hogy az egymást NFS-en látó gépek egységes userid namespace-t használnak (ez implicite azt is jelenti, hogy aki az egyiken adminisztrátor, az a másikon is az), az meg tűzfalszabályokkal tökéletesen megoldható, hogy aki nem root az egyik gépen, az ne tudja az NFS szolgáltatást IP szinten elérni, azaz ne tudja megkerülni a policyt.
- A hozzászóláshoz be kell jelentkezni
nem a feladat nagy, a pénz kevés megfelelő megoldásra. így azzal gazdálkodik az ember ami van. Pl. P2000 SAN switch stb stb máris jobb lenne.
- A hozzászóláshoz be kell jelentkezni
A mongodb jó is lenne, ha csak doksik lennének a tömbön. De van rajta minden: txt (csilliárd sok), avi, mp3, mpeg, kazettás magnó, walkman :O
RAID6 van, de thruput is kell. Az IO-ról már nem is beszélek.
A tipikus Murphy, olyankor kezd elhasalni több vas több különböző helyen amikor azt hiszed, hogy most akkor ezt rendbe rakhatod.
- A hozzászóláshoz be kell jelentkezni
Felejtsd el, nagyo nehéz összehozni, és sok adatnál probléma esetén elfogadhatatlan ideig fsckzik, közben nem tudod, hogy lesz-e még valaha belőle valami. Mindez persze csak akkor fog kiderülni, amikor nagy gáz van, mert amikor minden ok, akkor amúgy nincs vele baj. Saját lemez formátuma van, amit katasztrófa esetén az életben nem recoveryzel.
A glusternek sok baja van, de annyi mindenképp előnye, hogy egy rendes feilerendszeren, rendes fileok vannak, és nagy a baj, akkor egy példány még mindig van egyből.
- A hozzászóláshoz be kell jelentkezni
GPFS, AFS nem valami nagy mutatvány, nem értem miért dolgozzon vele akinek 7 anyja van :)
GPFS drága, de teljesen jó, a failure group-okkal pont ezt tudja, ráadásul Posix kompatibilis egészen az fcntl() részig.
Jelen esetben egy jó cluster sw-vel maradnék a drbd + extX megoldásnál, nagyon muszáj szituban mennék a Gluster felé.
Ceph még beta, de baromi jó lesz ha kiforrja magát, bár azt inkább virtuális rendszerek alá tudom elképzelni (pl. Proxmox)
- A hozzászóláshoz be kell jelentkezni
2 node esetén a drbd tud meglepetést okozni (split brain). Én tennék fölé egy rendesebb cluster megoldást (pl. Pacemaker), rendes quorum-mal, ami minden esetben segít eldönteni, ki a master és ki a slave.
--
A gyors gondolat többet ér, mint a gyors mozdulat.
- A hozzászóláshoz be kell jelentkezni
+1, de: define rendes quorum :)
Qdisk, 3. standby node, stb. Feladattol fugg.
A quorumon felul egy normalis fence/stonith is kell am!
- A hozzászóláshoz be kell jelentkezni
Vmit elkefelsz, incerementalisan kell szinkronizalnia.
Mibol gondolod, h nem ugy teszi?
tompos
- A hozzászóláshoz be kell jelentkezni
+1. Teletömött Thumper (bruttó 48TB) volt a passzív oldal, és egy rakás másik masina tolta rá az adatokat drbd-n. Az aktív oldalon sw-es raid tükörre (md) lett drbd device húzva, a passzívon meg egy megfelelő méretű lv-re került a drbd eszköz. Pöcc-röff, egy újabb gép alá drbd-zett tárhelyet csinálni nem sokkal tartott tovább, mint ezt a hozzászólást megírni :)
- A hozzászóláshoz be kell jelentkezni
+1,
hint a kérdezőnek: OOS rész a cat /proc/drbd-ben pont azt jelöli ami adat nincsen átnyomva a secondaryra még.
---------------------------------------------------
Hell is empty and all the devils are here.
-- Wm. Shakespeare, "The Tempest"
- A hozzászóláshoz be kell jelentkezni
DRBD helyett CEPH esetleg, és mondjuk 3 vagy 5 node?
- A hozzászóláshoz be kell jelentkezni
Tudom, naív vagyok, de 12TB alá nem érné meg inkább egy shared storage-t alkalmazni? Vagy túl messze vannak a node-ok egymástól? Vagy alacsony a költségvetés?
Ave, Saabi.
- A hozzászóláshoz be kell jelentkezni
Fizikailag elég messze vannak egymástól most(kb 80 m) , de megoldható, hogy egymás mellett legyenek. Gyakorlatilag mire gondolsz?
- A hozzászóláshoz be kell jelentkezni
A szexre, de most koncentráljunk a te problémádra!
Jelenleg, ha jól értettelek, akkor van két géped, mindegyiken local storage és ezek között drbd-vel tükrözöd az adatokat. Én ennyi adatnál inkább egy intelligens storage-t használnék (pl. HP 3Par), amely maga gondoskodik a redundáns tárolásról és amelyet a cluster tagjai egyszerre érnek el (iSCSI, Fiber Channel). Természetesen megoldható hogy tárolóból is kettőt használsz, amelyek közt lehet host oldalon és lehet storage oldalon gondoskodni az adatszinkronról.
A HP Serviceguard for Linux referencia konfigurációi közt található egy olyan, ahol a cluster tagjai legfeljebb 100Km távolságra találhatóak egymástól. Mindkét site-on van egy-egy 3Par tároló, melyek közt az adatszinkronról egy host oldali tükrözés gondoskodik. Minden gép csatlakozik minden tárolóhoz. A gépkiesésről a cluster software, a tároló kiesésről pedig a tükrözés gondoskodik. Márminthogy a fentiek ne okozzanak problémát.
Nem állítom, hogy a fenti megoldás a lehető legolcsóbb.
Ave, Saabi.
- A hozzászóláshoz be kell jelentkezni
Szerintem ha lett volna penz/igeny/szaktudas egy vendor-lock-in "profi" megoldasra, akkor mar az lenne.
- A hozzászóláshoz be kell jelentkezni
Vendor lock-in normális cluster software-t használni? LOL! Ezzel az erővel egy RHEL vagy SLES OS is vendor lock-in! :-(
Amit meg a storage-ekről írtam, nyilván nem csak HP tárolókkal igazak, csak én nem ismerek mást. Amúgy a 12 TByte adatból mertem feltételezni, hogy nem egy "Jézus-szíve Bt." kategóriájú cégről van szó. Bár tény, hogy a négy terás SATA diskek korában egy microserverben ( HP Proliant MicroServer :-P ) is lehet ekkora tárkapacitás. Redundánsan!
Hmm... akkor két tömött microserver iSCSI-n, host oldalon tükrözve, na? A cluster software meg tetszőleges.
Ave, Saabi.
- A hozzászóláshoz be kell jelentkezni
No igen, fejlődik a világ... Bezzeg, amikor az 1TB is komplett szekrénysor volt... :-D
- A hozzászóláshoz be kell jelentkezni
Utolsó sorhoz +1. (Kivéve a microszerver :-))
--
#conf t
#int world
#no shut
- A hozzászóláshoz be kell jelentkezni
Ez a 3Par szuper jó megoldás tudom, ebből kettő meg maga az álom. SSDvel, SAS meg SATA lemezekkel...
- A hozzászóláshoz be kell jelentkezni
Ha a 80m az LAN és gigabit (vagy gyorsabb :) ), akkor nincs messze egymástól a kérdező szempontjából :) A messze az azt jelenti, hogy geo replication (a glusteres terminológiában) tehát neten keresztül.
- A hozzászóláshoz be kell jelentkezni
Gigabit, az van.
- A hozzászóláshoz be kell jelentkezni
rsync?
- A hozzászóláshoz be kell jelentkezni
Rossz vicc. A cp gyorsabb ilyen méretnél...
- A hozzászóláshoz be kell jelentkezni
és a cp csak azt másolja át, ami frissült?
ugye, hogy nem
- A hozzászóláshoz be kell jelentkezni
Viszont mire az rsync vegignyalazta, hogy mi valtozott, addigra mar lefutott a cp :)
Ceph kiforratlan, esetleg Gluster, de ha mar ossze van rakva, akkor en a DRBD-nel maradnek.
- A hozzászóláshoz be kell jelentkezni
vagy nem :)
komplett gépeket (100GB-s nagyságrend) mentek 4 óránként.
komoly előnye az rsync-nek, hogy ha egy 100M-s logfile végére odaírnak 1M-t, akkor csak az az 1M megy át a hálózaton.
--
Gábriel Ákos
http://i-logic.hu
- A hozzászóláshoz be kell jelentkezni
"Lukas" fájlokkal is csúnyán el tud bánni az rsync. Többnyire jó, de nem szabad lebecsülni a cp-t. :DDD
- A hozzászóláshoz be kell jelentkezni
nyilván körültekintően kell paraméterezni.
--
Gábriel Ákos
http://i-logic.hu
- A hozzászóláshoz be kell jelentkezni
Huhhh. Dobnál egy körültekintő paraméterezést sparse fájlok nfs target-re rsynceléséhez..? (Nekem nem sikerült az rsync-et értelmes munkára bírnom ilyen helyzetben.)
- A hozzászóláshoz be kell jelentkezni
Biztos vagy ebben?
- A hozzászóláshoz be kell jelentkezni
Gondolom a fájllista meg a blokkonkénti checksum elenyésző a teljes adatkupac méretéhez képest, és ezért az elhanyagolás :-D
- A hozzászóláshoz be kell jelentkezni
jaja, így pontos
--
Gábriel Ákos
http://i-logic.hu
- A hozzászóláshoz be kell jelentkezni
Nagyon sok filenál azért tud lassú lenni az rsync, mert a filerendszer sok adatot olvas (rossz esetben random összevissza helyekről) a file adatok miatt. De ezt a cp nek is meg kell csinálnia, tehát szerintem a cp semmilyen esetben nem lehet jobb az rsyncnél. Ha meg az inplace stb. az rsync kihagy egy csomó filet, és a nagy fileokat is csak részben másolja át, akkor hogy lenne gyorsabb a cp?
- A hozzászóláshoz be kell jelentkezni
ah, nem ide
- A hozzászóláshoz be kell jelentkezni
Troll: 6 merevlemez és egy gördeszka?
- A hozzászóláshoz be kell jelentkezni
az a DR rendszer :p
- A hozzászóláshoz be kell jelentkezni
Initial sync eseten nezd meg az A es B protcolt
- A hozzászóláshoz be kell jelentkezni
Épp az a baja hogy az initial sync már rég megvolt.
- A hozzászóláshoz be kell jelentkezni
ha gyorsan akarsz sokat syncelni (mert az initial mar regi) akkor is segithet az A vagy B protocol.
(Ha meg mar teljes a sync akkor vissza lehet menni C-re, hogy biztonsagban legyenek azok a bitek)
- A hozzászóláshoz be kell jelentkezni
Ez oké, de az a kérdés hogy egy leszakadás után miért nulláról kezdi a syncet, mert nem így kéne működnie.
- A hozzászóláshoz be kell jelentkezni
Log nélkül csak találgatni lehet, régi drbd verziókban volt ilyesmi race condition.
- A hozzászóláshoz be kell jelentkezni
Hány fájl található a rendszerben?
- A hozzászóláshoz be kell jelentkezni
"sok csillió millió" - vagy pontosabban kellene?
- A hozzászóláshoz be kell jelentkezni
Igen, ha lehet tudni.
- A hozzászóláshoz be kell jelentkezni