halozat/infrastruktura bovites, ceph es OpenStack tapasztalat #1

akarmennyi eroforrast raksz ala, a felhasznalok mindig el fogjak hasznalni ;-)

november elejen inditottunk egy belso, helyi felhot (van par a cegen belul, de kellett egy olyan, ami svajcban van, helyiek uzemeltetik, es hozzaferunk "alul" is), es bizony kinottuk. elkezdtuk elokesziteni a bovitest...

az elso dolog, ami kelleni fog, az egy uj rack (pipa), illetve egy uj switch. a kedvencem mostanaban az IBM G8264 ToR switch.
4x40Gbit SQFP+ port, 48x10Gbit SFP+ port. hirtelen megneztem az arat a magyar piacon, nem tul barati (6M+fa korul talalja a google),
igy gondolom sok ember nem fut bele. ez lesz a masodik ilyen most a kezem alatt, valoszinulseg az uj rackekbe (mostanaban rackesevel
bovitjuk majd a hardwaret) is ilyet rakok.

kicsomagolas utan:

es az uplink mar bekotve:

ha minden jol megy, a heten megjon a 6xIBM x3650 M4 BD, ok lesznek a ceph nodeok,
plusz ket masik gep adja majd az SSD tiert (a firefly-tol felfele lesz supported tiering, ket pool kozott, majd irok rola bovebben egy kovetkezo
bejegyzesben). igy lesz 3x replikacio mellett 48TB hasznalhato hely egyelore.

a terv a kovetkezo:
- 2db gep (2x6 mag, 64/128GB RAM) lesz vSphere-el a management cluster (ezen lesz a DC, DNS, DB2, OpenStack-es API GW es network controller)
- 8db gep (2x6 mag, 256GB RAM) lesz a compute node
- 2db gep (1x6 mag, 16GB) ram lesz a staging area (git commit es review utan ide megy fel a kod rogton, majd futnak le a tesztek)
- 2db gep (ugyanez) lesz az abszolut teszt rendszer

a ceph-bol vagy iSCSI-t, vagy FCoE-t fogok kiajanlani (meg tesztelnem kell, hogy az intel halokarikon lehet-e teljesen offloaded FCoE-t csinalni, mindenfele ugyeskedes nelkul).

elvileg jovoheten megerkeznek a vasak, folyt. kov. :)

NagyZ blogja
A hozzászóláshoz be kell jelentkezni
2155 megtekintés

hw pr0n :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Anno a koleszban mi azon rohogyunk, hogy az eggyel nagyobb wincsi 2 hétig elég :)
---

Ha az ember nem sajat maganak dolgozik, akkor nehezen tanulja meg, hogy dobni kell a draga, keves/semmi haszonnal nem jaro dolgokat a specifikaciokbol.

--
Live free, or I f'ing kill you.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nice. Végképp elköteleződtél a Ceph mellett vagy pl. GlusterFS-t is néznél valamikor (más világ kicsit)?

0 szavazat

A hozzászóláshoz be kell jelentkezni

ha megjon a hardware, igertem par embernek, hogy csinalok GPFS es glusterfs tesztet is. ami nem tetszik a glusterben (de javits ki, ha tevedek), hogy mivel ugye fajlrendszer,
igy fajlonkent valaszt brickeket - tehat lehet egy fajlom ami szet van dobva 3 eszkozre, es szinkronban tartva; na, a fajlban tarolassal bejon megegy indirekcio (VM blokk eszkoz -> fajl -> blokk eszkoz), plusz nem tudom, hogy tud-e
- tieringet
- a brickeket lehet-e stripeolni mas brickekkel

cephnel nagyon tetszik, hogy lenyegeben "minden" diszk dolgozik mindig, igy a terhelesed nagyon szepen eloszlik es skalazodik.

ami most nagy szivas, hogyha nem egyenletesen hasznalja a diszkeket (bar mi 0.64.x-et futtatunk egyelore elesben, nem 0.7x-et), illetve hogy amikor atirja az ember a crush mapet (milyen adat hogy helyezkedjen el), akkor iscsitgt-n keresztuli rbd map teljesen meghal (100% iowaitbe megy az rbd blokk eszkoz a kernelen belul, igy a rajta levo vmware datastoreok nem szeretik), de ezt mar hatha javitottak - az uj hwre a legujabb, 0.78 megy majd

0 szavazat

A hozzászóláshoz be kell jelentkezni

Stripeolni - ha jól értem, mire gondolsz - lehet, de nem preferálják.

Igazából ami előnye van, hogy (főleg a Ceph-hez) képest piszok kicsi az erőforrásigénye. Az meg nektek nem számít ;-).

0 szavazat

A hozzászóláshoz be kell jelentkezni

a storage gepekben 2x6 mag es 64GB RAM van - 12x2TB-hoz.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A glusterfs tieringet (meg) nem tud.
Egyebkent vmware ala tudtommal nagyon bena, vagy legalabbis az volt korabban. NFS-en el tudja erni, ami aztan olyan, amilyen, a nativ implementaciojuk.

En hasznalok glusterfs-t elesben, de szerencsere replikacio nelkul.
Olvasva a levlistajukat a replikacio nem igazan mukodik tokeletesen, nekem meg anelkul is vannak vele mindenfele problemaim (igaz, nem VM-ek alatt hasznalom, teljesen mas use case).

Egy esetben rughat labdaba a glusterfs szerintem, ha a geo-replikacio-ra van szukseg, azt mintha a ceph nem tudna.

0 szavazat

A hozzászóláshoz be kell jelentkezni

mar tudja a geo replikaciot is.

0 szavazat

A hozzászóláshoz be kell jelentkezni

sed -i 's/tearing/tiering/g'

Ha jól értelmezem :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

kicsit faradt voltam, javitva, koszi :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez a switch viszont önmagában spof, nem?

0 szavazat

A hozzászóláshoz be kell jelentkezni

ha csak ezen lenne a teljes infrastruktura, akkor teljes mertekben. ket megoldas van (van egy masik rack, ahol most futnak a cuccok, annak a tetejen is ugyanez a switch):
- minden gep egyik laba egyik switchre, masik laba masik switchre
- minden funkciobol fele egyik rack, fele masik rack

meg nem talaltuk ki, melyik legyen, de semmikeppen sem szeretnenk spofot

0 szavazat

A hozzászóláshoz be kell jelentkezni

Majd akkor lesz erdekes a config, ha jon meg1 rack ;)

0 szavazat

A hozzászóláshoz be kell jelentkezni

ha ilyen utemben bovulunk, par het, es berendelem.

a 2TB memoriabovitest mar "elojegyeztek" a juzerek (ertsd: egy irt mailt, hogy kelleni fog neki 100 VM, gepenkent 16GB rammal, a masiknak meg 200 VM kene gepenkent 8GB-tal...)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Pár sorban leírnád, mivel foglalkoztok? Milyen célra kell 100 meg 200 VM, sok memóriával, felhasználónként?

0 szavazat

A hozzászóláshoz be kell jelentkezni

K+F, ha jol tudom.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant.

0 szavazat

A hozzászóláshoz be kell jelentkezni

itt dolgozom, nem titok :)

a kollegak sokmindent csinalnak a vmeken, nyilvan fogalmam sincs, pontosan mit, hiszen abba nem latok bele. az intranet id-vel be lehet lepni (a filter az, hogy a mi business unitunk foglalkoztassa), es minden usernek van 10 VM, 64GB RAM illetve 1TB diszk limitje - keresre emeljuk.

az egyik konkret dolog, amirol tudok, az a GPFS uj verzioinak a tesztelese; illetve hadoop felhasznalas.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mi ilyen SoHo switcheket legföljebb ott használunk, ahol nincs komoly infrastruktúra, csak inkább kliensek. :)

--
„Spiró ótvar, Konrád átok, Nádastól meg mindjárt hányok!”

0 szavazat

A hozzászóláshoz be kell jelentkezni

a masik oldalan nexus 7000 van, az mar egy kisirodaba eleg azert, ugye?:)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nehari, de már rég nem követem a Prohardvert az ilyen fanboy-kaliberű vasakkal kapcsolatban. ;)

--
„Spiró ótvar, Konrád átok, Nádastól meg mindjárt hányok!”

0 szavazat

A hozzászóláshoz be kell jelentkezni

sub.

0 szavazat

A hozzászóláshoz be kell jelentkezni

azaz
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez a switch egyenesen sexy, csak többe van, mint egy csaj. :p

--
Fontos! Ha berágok, nem feltétlen személyed ellen szól...
openSUSE 13.1 x86_64

0 szavazat

A hozzászóláshoz be kell jelentkezni

lol.
:D

-------------
"Mérnökkel vitatkozni olyan, mint disznóval birkózni a sárban - kis idő múlva rájössz: Ő ezt élvezi..."
Winben blogja

0 szavazat

A hozzászóláshoz be kell jelentkezni

infrastruktura bovitessel kapcsolatban:
van supermicro altal gyartott geciolcso storage akar ceph ala jopar ilyet :). Foleg rackhely-sporolas miatt erdemes lehet elgondolkodni rajta.
Fullon feltoltve rammal 72x4T sataval mindennel egyutt. $30-40k korul van.

https://dl.dropboxusercontent.com/u/5004161/hurkale/smst1.jpg
https://dl.dropboxusercontent.com/u/5004161/hurkale/smst2.jpg
https://dl.dropboxusercontent.com/u/5004161/hurkale/smst4.jpg

288T sata ment bele storagenek
+2 rendszernek
Ilyeneket kb 2 honapja hasznalok backupra szoval hosszutavu tapasztalatom nincs vele, de eddig nem allt le :)
Fogyasztasa egy ilyennek:
The Highest Peak (W) 1156
Average (W) 838

0 szavazat

A hozzászóláshoz be kell jelentkezni

jaja, nezegettem ezt is, az a bajom vele, hogy nincs olyan diszk, ami rajta van egyszerre a backplane ES a HBA HCL-en:)
plusz cephnek jobb az, ha tobb nodeod van, mintha egy/ketto nagy

kosz a kepet, nagyon barati a fogyasztas is; WD diszkeket hasznaltok, ha jol latom

0 szavazat

A hozzászóláshoz be kell jelentkezni

Milyen redundanciat adsz hozza?

0 szavazat

A hozzászóláshoz be kell jelentkezni

2 disk eshet ki gepenkent. Ezek cephbe vannak behuzva es van 40G van cluster networknek. Igysem egy gyorsvonat de azert veges idon belul helyreall ha kiesik 1 :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

72-bol 2db 4T-s HDD mehet tonkre?
Meresz vagy.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ilyen hardverekről én csak olvasok, élőben még messziről sem láttam, hasonlót sem. Az eredeti posztról nem is beszélve, csak ez a 72db HDD bő 3 millió HUF. Mikro- és kisvállalkozásoknál nem találkozok ilyen volumennel.

Szöget ütött a fejemben, hogy milyen szervezésben oldható meg, hogy ilyen sok eszközzel ilyen kevés redundancia legyen. Ha jól gondolom, akkor a HW és SW RAID megoldások sem szeretnek ilyen sok lemezt egy kötetben (RAID6 70+2 vagy RAID5 2x 35+1 vagy mi?).

WD RED 4.0TB-os HDD-re a non-recoverable read error rate 10^14 (ami desktop kategória), ami kb. 11.36TB. Ez nagyon is partiban van az én olvasatomban (sőt...) a 70x4 TB tárhellyel és a 8TB kieső kapacitással.

A serverthehome.com RAID megbízhatósági kalkulátora szerint 72x4TB RAID6-ban 98%-os eséllyel okoz adatvesztést az első évben, de még RAID50 esetén is 40% az esély adatvesztésre azonos időszakra. Csak ebben a két felállásban tudom elképzelni a 2 kieső lemezt egyenlőre.

Vagy rosszul gondolom az egészet? Nem vagyok járatos ebben a témakörben, de nagyon érdekel.

0 szavazat

A hozzászóláshoz be kell jelentkezni

kicca es en is ceph-et hasznalunk storagehez, nem raidet, vagy ilyesmit. es ahogy lent irta, ha meghal valami, majd a ceph lerendezi, eszrevetlen :-)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Értem. Viszont akkor nem sántít a két node, node-onként nagyon sok diszk felállás? Nem lenne biztosabb több node, darabonként kevesebb HDD-vel? Mert ennyi adatnál megáll az egyik, a CEPH elkezdi megoldani. Közben simán megállhat a másik is. Pont ugyan az a gond, mintha sima RAID lenne.
Az oké, hogy backup-ból helyreállítható, de ennyi adatot visszamásolni sem 5 perc.

0 szavazat

A hozzászóláshoz be kell jelentkezni

igy van, minel tobb nodeod van, annal jobb a dolog. de lehet ilyen nagy gepbol is sokad - cernnel a teszt kornyezet ~8.8PB, sok rack, minden rackben semmi mas, csak sok diszkes rendszerek

0 szavazat

A hozzászóláshoz be kell jelentkezni

ki nem szarja le? ha megserul majd helyreallitja magat. :D En ilyenen nem izgulok.
Amugy persze jobb lenne ha raidkartyankent mehetne tonkre 2. De ez a vonat mar elment, majd ha beleall a gorcs akkor ugy epitem ujra mar :) De lehet, hogy holnap mar ujracsinalom raidet rajtuk attol fugg hogy lesz kedvem

Amugy az hogy 2 mehet tonkre az azt jelenti, hogy 1 mehet tonkre mert kettesevel lehet kivenni diskeket :DDD

Amugy ha belecsapna a gombvillam a kabeltvbe es bemaszna a szerverekhez akkor is helyre tudom allitani az adatokat aranylag gyorsan garantaltan kieses nelkul.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ja ertem, szoval csak nem szempont.

Amugy van egy hasonlo a kezem kozott es meglepo modon nem halt meg meg belole semmi, ott vmi 40 hdd van 1 array-ben.
Igaz, keves iras es olvasas jellemzi..

0 szavazat

A hozzászóláshoz be kell jelentkezni

Friss hozzászólások

"Az jó, hogy valaki próbálja… 2025-09-19T17:40:01+0200
Te annak a fajta embernek… 2025-09-19T17:29:37+0200
Pedig van több is, konkrét… 2025-09-19T17:25:22+0200
Benne van, de csak… 2025-09-19T17:21:15+0200
Rengetegen preferálják a … 2025-09-19T17:16:41+0200
Ezt nem tudtam. Én a My-ról… 2025-09-19T17:14:25+0200
Már azt se tartottam jó… 2025-09-19T17:11:53+0200
Ez elég felemás hír, van… 2025-09-19T17:09:35+0200
Ez megvan, de nem kéne… 2025-09-19T17:04:26+0200
Holnap megnézem. 2025-09-19T17:00:37+0200

halozat/infrastruktura bovites, ceph es OpenStack tapasztalat #1

Hozzászólások