ZFS High-Availability NAS

 ( csardij | 2019. április 24., szerda - 21:05 )

Hali,

Nemrég találtam ezt a leírást: https://github.com/ewwhite/zfs-ha/wiki

Elég érdekesnek és életképesnek hangzik, valamint viszonylag jóárasítva össze lehet hozni.

Használ valaki hasonló felállást (SAS JBOB + 2 head node), akár ZFS nélkül? Tapasztalatok, vélemények?

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Csak futolag neztem vegig de ranezesre ez nem tobb, mint 2 szerver es kozos tarhely corosync+pacemaker clusterrel.
Most az hogy JBOD es nem Storage controllerrel egy dolog, ahogy zfs helyett is ilyen erovel lehetne xfs,ext4 is ranezesre es mindezt azert hogy nfs-en kiajanlani a vegen...nemigazan ertem miert extra vagy mitol jobb ez mint mas hasonlo megoldas?

XFS, EXT4-vel lesz neked 10 külön disked. Hogy raksz rá raidet? Amit még el tudok képzelni, hogy LVM-vel megoldani az adat redundanciát és azt is be lehet hajtani pcs alá.

Mivel az embernek vmware alá kellett, mást nem tudott mint NFS-vel kiajánlani, gondolom, mivel az van beépitve a zfs cuccba a leirás alapján. De pl. proxmoxod van, oda már lehet elvileg ZFS over iSCSI-t rakni, ahol több előnyt ki lehet használni a doksi szerint.

AMúgy meg persze, vehetsz egy MSA2040-et is, 10-szer ennyi pénzből és kész, nem több mint az, de kb le is irja a bevezetőben.

Sw raid (vagy lvm) es azon xfs, ext4-re gondoltam. Nfs helyett Iscsi-t is epithetsz pl lio targettel.
Mondjuk ezt a zfs over iscsi-t nem ismerem, igy elso keresesre leginkabb proxmox-nal jon elo es (open)solaris-os zfs storage-al ajanljak egyelore, de lehet csak nem neztem utana rendesen mi extrat tud az adni.
Zfs-nek ssd-s l2arc cache megoldast lehetne felhozni elonynek (bar nem tudom az mennyire hasznalhato vagy mukodik iscsi-n keresztul), ugyanakkor viszont tobb memoria kell zfs-hez.

Ha azt nezzuk, hogy ehhez kell egy JBOD meg 2 szerver ami nfs vagy iscsi kiosztast csinal nem vagyok meggyozodve rola hogy (sokkal) olcsobban jonnel ki egy nfs/iscsi kiosztast tudo storage-hoz kepest. Avagy ilyen erovel lehet hasznalhatobb irany lenne ceph/gluster stb storage-ot epiteni.

ZFS-nek szerintem ami előny az a deduplikáció és tömörítés, ez nincs az LVM-be, ext*, xfs-be meg főleg.

CEPH-et nem hozod ki ennyiből, ahhoz, hogy normális legyen, legalább 5 node (8 hdd-vel + nvme rocksdb-nek) plusz a három monitor kell, meg egymás közt 10 gigabit, redundánsan.

Az LVM-est el tudom képzelni, hogy lehet összehozni tiszta sor, psc tudja kezelgetni, stb.

De az sw raidesre nincs ötletem, nem látok ilyen modult pacemaker-hez, gondolom mindig csak kb úgy menne,hogy az aktív nodeon lenne csak aktiv a raid + az FS, a másikon pedig teljesen letiltva, vagy hogy?

Tömörítés: ok, tényleg jó.
Dedup: felejtős. Zabálja a memóriát és pár száz GB adat után nullára redukálja az IO teljesítményt.

2 node-os pacemaker-t quotum nélkül nem neveznék normálisnak.(...és őszintén egy veritas cluster vagy egy solaris cluster után a pacemaker csak egy vicces kis dolog, ami időnként k.sok szopást tud generálni.)
2 node-ra lehet pl. gluster FS-t összerakni. Az sem kevásbé gány mint ez a zfs-es izé.

Egyébként zfs-es megoldásban is csak az aktív node éri el a diszkeket. szerintem md raid-al is meg lehet valahogy oldani, bár élesben nem használnám.

Azt írja az ember, hogy úgy állította, hogy több volume esetén mindegiyk másikon aktív vagy valami ilyesmi redditen.

Nem használtam soha ZFS-t, csak a leírást olvastam, hogy milyen csilivili featureakot tud. GlusterFS-nél nem igen van jó tapasztalatom, bár lehet azóta fejlődött a dolog, mikor kb 4 éve teszteltük/tesztbe használtuk VM-ek alá elég nem volt jó szájíz, meg ha jól emlékszem a replikációval a kliesn CPU-ját terheli, az küldi a nodeoknak.

"Azt írja az ember, hogy úgy állította, hogy több volume esetén mindegiyk másikon aktív vagy valami ilyesmi redditen."

Külön volume groupok lehetnek más-más node-on, az úgy rendben van.
Nem rosz a ZFS, sőt kimondottan jó. Baromi sok helyen használom mentőszerverként, file szerverként, mert tényleg jó.
Én csak azt gondolom, hogy a fenti hobbiprojekt HA nfs storage célra erősen szuboptimális. Ugyanennyi pénzért vannak egyszerűbb és stabilabb megoldások is.

Cluster konfigba 1 HA ip-t vett fel, gondolom nfs-t azon keresztul kellene elerni, ami csak egyik node-on lesz aktiv, lehet atsiklottam valamin de ketlem hogy nem active-standby cluster lenne amit osszerakott.

Tomoritest (meg talan dedup-ot is) tudhatsz blokk szinten vdo-val (rhel 7.4 vagy melyiknel jott be), igaz nem tul kiforrott de filerendszer fuggetlen occo megoldasnak jo lehet.

Nemigazan ertem hogy jott ki hogy ceph-nel 5 gep kell meg nvme ssd meg a 10G, mikozben hasonlitod a zfs-es megoldashoz ami egy 2 node-os 1G linkekkel szerelt mondjuk poor mans clusternek nevezheto megoldas.

Itt csak két gépbe kell egy-egy dual portos kártyát venni, nem 5-be. Persze, lehet ceph-ezni akár egy géppel is, csak a teljesítmény olyan is lesz. Te milyen CEPH clustert használsz, amivel tapasztalatod van?

Mondjuk 3 gepbol, hol lattad hogy 5 a minimum, ilyennel leirassal meg nem talalkoztam eddig?
De lehet 2-bol is kb annyira redundansat 2-szeres replikaval, mint a fent vazolt megoldas.
Igen, ceph teljesitmenyhez szamit a gepek szama is, de azert eleg erosen az is hogy mi van azokban a szerverekben.

Persze menni fog a három, de a teljesítmény is olyan lesz. A ceph akkor gyors ha sok node-ban sok osd-d van.

...akkor én már végig sem olvasom. Reméltem, hogy magába a ZFS-be "faragtak" végül hálózatos, "multi-host" funkciót - az lenne egy nagy dobás.

----------------------------------^v--------------------------------------
"Probléma esetén nyomják meg a piros gombot és nyugodjanak békében!"

14380USD... Kicsit több mint 4 milla. Ennyi pénzért lehet venni olyan normális dual controlleres iscsi/nfs storage-ot 7x24-es gyártói supporttal, ami nem mellesleg fele ennyi helyet zabál fel a rackból.

"A licensed highly-available build of a 16TB raw commercial ZFS array built atop commodity hardware approaches $25-30k."
Ez igaz, veszett drágán adják ezeket a ZFS-re épülő dobozokat, de nem kell ennyire belezúgnia ZFS-be. Vannak olcsóbb megoldások is, ha csak nfs kell.

És őszintén szólva egy 2 node-os pacemaker/corosync cuccra nem bíznék fontos adatokat.

Szerintem ne az új árát vesd össze ezzel nem az a cél közönség, inkább a low budget megoldást. DL360 G8-val, D3700-val, sas kábelekkel, TGE kártyával használtan ha jól nézem a boltok árait kb fél misiből megvan, plusz az áfa. A G7-vel, D2600/2700-vel meg még jóval olcsóbb.

Tudom, hogy ha nem aranyból hozzá se nyúlsz, meg ha nincs 40 gbites hálózat, meg ötszörös redundancia, de szerintem ez teljesen más célközönségnek való. A DRBD tákolt megoldásoknál sokkal jobba és stabilabbnak tűnik a dolog.

"Szerintem ne az új árát vesd össze ezzel nem az a cél közönség"

Ha refurbished, vagy használt akkor még olcsóbb.
Most adtam el egy 4 éves Storwize v3700, dual controller FCstorage-ot, 12x600GB sas-al, 300K+áfáért...
+3év 7*24 support, meg új diszkek bele, és akkor is feleannyiból kijön. Ráadásul ha colocationba rakod, akkor 2x1 unittal kevesebb, ami kb 1 millával kevesebb hosting költség 3 év alatt.

Ha HA storage-ot akar valaki, akkor ne tákoljon, hanem vegyen bizonyítottam működő megoldásokat. (akár használtat is....)
A low budget és a HA diszjunkt halmazok.

FC, SAS meg a gigás iscsi az nem drága. De a TGE iscsi, az vagy nincs, vagy használtan is horror áron van. Simán el akarnak kérni egy tge kontrollerért 2-3ezer EUR-t.

Qlogic57810 dual port 10GBE kb 250 EUR körül van... 2-3000 eur-ért már új 10GBE switchet is kapsz Pl. HPE1950, JH295A 12x10GBE+4xSFP 1300 EUR körül van.

Controllerlről beszéltem, te meg ide tolsz egy NIC-et. Senki nem mondta, hogy a tge NIC drága.

Jah, valóban. Csak megtévesztett, hogy low budgetet emlegettél még az előbb ,és most controllerről írsz... :)
Bár megjegyzem, ha storage controllerre gondolsz, akkor azt storage controllernek hívják. A controller és a NIC kb. szinonímák a gyártók szóhasználatában is.

Egyébként meg 8gigás FC controller és 10GBE controllerek kb. egy árban vannak. SAS és 1GBE controllereket meg ne vegyük egy kalap alá velük.

Azert ebay-re felpillantva akad 10G iscsi-s storage is hasznaltan hasonlo arban.
Teny hogy kevesebb van azokbol, de azt azert nem lehet mondani hogy 1db storage helyett 2 szerver + jbod lenyegesen olcsobban jonne ki es funkcionalisban meg redundanciaban nincs elorebb vele igazabol.

Persze kiserletezesnek jo, vagy ha ilyen gepek vannak keznel, ilyet tud szerezni konnyen stb. akkor igy osszerakottan is lehet hasznalni. Csak akadnak mas megoldasok is szoftveres osszeallitasra, amikhez kepest en nemigazan latom hogy tobbet adna vagy kiemelkedobb lenne ez. Ahogy ha nem meglevo hw-en akarja osszerakni hanem meg kell venni akkor lehet jobban jar kesz storage-al.

Tudnál linket dobni 10g iscsi storage-re? Nem igazán találtam ebayen én, most ahogy kerestem, de akkor valamit nem jól csináltam.

Hali,

Megnéztem, az elsőnál a leírásban tge van, de az ebay metaadatokhoz már 8Gb/s Fibre került, írtam neki, hogy most mi az igazság (ezért nem is hozta az ebay keresője), másodiknál már a leírásban sem írta, hogy TGE-s, a típus alapjná persze mostmár látom, de nem konkrét típusra kerestem, hogy paraméterekre. A harmadik meg eleve kiesik mert nem EU.

Az alábbi keresési feltételeket használtam: https://www.ebay.com/b/SAN-Disk-Arrays/58317?Form%2520Factor=Rack%252DMountable&Interfaces=iSCSI%7CSFP&Network%2520Type=iSCSI&rt=nc&LH_ItemCondition=3000&LH_PrefLoc=5

Vannak olcsóbb megoldások is, ha csak nfs kell.

Némi iránymutatást tudnál adni mire gondoltál?

Lehet egy jó minőségű szerverből is (mondjuk 7x24 órás gar-al.) freenas-t építeni. Diszk és táp legyen megfelelő redundaanciával védett (2 táp, raid5+hot spare, vagy raid 6 és hot spare)

Az ilyen tákolt HA storage megoldásokkal az a rossz, hogy csak addig HA, amíg nincs valami hiba.
Ha bármi elromlik, hirtelen kiderül, hogy mégsem tökéletes az a HA, jóval nehezebb rendbe rakni, mintha egy "mezei" nfs szerver lett volna.

sub

Shared disk alrendszer megoldott ZFS storage fail over time mindig egy elhallgatott idő. Oracle ZFS storage esetén 30 másodperc is lehet. A nagy kérdés, hogy ez esetben mennyi és azt kibirja e a felette lévő infra.

Egy low end Dell MD storage két kontroller cache coherent, bármelyiket bármikor kihuzhatod, adatod nem fog sérülni és a szolgáltatás sem fog leállni. Ha meg valamiért kell a ZFS egyéb szolgáltatása akkor annak oka van és pénz is van rá és hasonlóan jó áron egy Dell compelent mindent tud amit ez tudhat és nem fog csak úgy megpukkanni.

itt a pont
Bár ezt nem csak a Dell tudja, hanem kb bármelyik ma kapható dual controlleres storage. (A cache coherency a belépő szinten is minimum elvárás)

Az sem Dell, de az LSI/Avago/Broadcom termékét ők adják a legjobb áron, kba benne lévő lemezekez adják a dobozt ha televeszed, persze kereskedőn múlik. Ugyanez a netapp e vagy régebben IBM 3000 széria.

Alapvetően mindegy mivel akár az ember HA-t létrehozni, azt nem lehet ilyen sok dobozos házi megoldással megoldani hosszú távon. A leírásban meg csak HP eszközöket használnak ami nem a legolcsobb ilyen szintre, a szerverek árából inkább egy MSA-t kell venni.

Én nagyon nem örülnék ha egy ilyen hozzám kerülne. Nem érezném magam túl jól miatta.