Sziasztok,
Elő kell készítenem blade szervereket Apache Hadoop telepítéséhez. A kérés rendkívül rövid volt, telepítsek rá RHEL 6.3-at és készítsem elő a gépeket, hogy lássák/elérjék (mutipathd) a network storage-t. És tudom nem én vagyok megfelelő szakmailag a feladathoz... ez van.
Adott 6 db új IBM Blade szerver 2x1TB disk. Amik lehetnek külön, RAID0 és RAID1-ben. Adott egy 8TB-os IBM Network Storage (RAID5-tel).
Az egyik Blade-re feltettem a RHEL 6.3-at, RAID1-et használtam a lokális diszkekhez, a storage manager-rel beállítottam hogy a 6 blade lássa és elérhesse azt.
Közben szóltak (itt a megbízót értem a multicégen belül -> másik divizió), hogy nem kell a RAID1. A levélre, hogy akkor RAID0 vagy anélkül persze az adott szakértő (aki majd telepíti a Hadoop-ot) nem válaszolt. Persze a melóval nem vagyok kész...
Amíg várok a válaszra azért kíváncsi lennék a véleményetekre: milyen partíció, milyen fájlrendszer (LVM avagy sem), stb...
Segítségeteket köszönöm.
ui.: Hogy mire és miért így, azt nem tudom. Így az ilyen jellegű felvetésekre nem tudok válaszolni. Bocs.
- 8945 megtekintés
Hozzászólások
Számomra csak az fura h. a Hadoop az inkább Distributed cluster, mintsem shared FS kelljen neki.
Persze lehet sharedben is tolni, de kíváncsi leszek hogyan oldja meg a szaki :)
- A hozzászóláshoz be kell jelentkezni
+1, a hadoop nem igazán erre van:)
- A hozzászóláshoz be kell jelentkezni
Szerintem simán elbeszéltek egymás mellett.
A rendszer legyen raid1-en, ne essen ki egy node egy szutymák diszkhiba miatt.
Viszont a storage-on nem kell védelem, azt a hadoop megoldja - feltéve hogy fizikailag független területeket osztasz ki a szervereknek. Perverz lesz a konfig, mert a storage kifelé lun-okat prezentál elfedve a fizikai diszkeket, de az meg neked nem jó, mert ha elszáll egy teljes raid group, akkor az összes node kiesik - ergo 1 diszk = 1 rg = 1 lun (kis sarkítás de kb ez jön ki a hadoop számára leginkább transzparensen).
Ez a hadoop+storage jó kis fejtörő, sokféle megoldása van attól függően mit akartok kihozni belőle a végén.
Másik lehetőség: a raid kártyától külön kéred a két diszket, OS alól tükrözöd, de csak a boot-hoz szükséges partíciókat, a maradék területet meg direktben odaadod a hadoop-nak. Igazából a hadoop erről szólna, hogy a node-ok dobják össze a tárterületet.
A storage-ot meg mondják meg hogyan szeretnék.
- A hozzászóláshoz be kell jelentkezni
Nekem is az a lehetőség tűnik jobbnak ha a Hadoop-ra bízzuk a fizikai háttértárakat, share nélkül. Ahogy mondjátok és olvasom, erre való/ezt tudja.
Ami fura, hogy szerverekben lévő RAID1-re mondták, hogy nem kell. Így ugye egy disk hiba miatt kieshet egy node...ők tudják!
Majd megírom mi lesz(tt).
- A hozzászóláshoz be kell jelentkezni
szerintem probald elerni hadoop-os kollegat es beszeljetek at. Egy epuletben vagytok?
- A hozzászóláshoz be kell jelentkezni
másik földrész :-)
- A hozzászóláshoz be kell jelentkezni
E-mail? !? :)
- A hozzászóláshoz be kell jelentkezni
telo?:-)
- A hozzászóláshoz be kell jelentkezni
Szia!
Nem meglepő, a hadoop HDFS része egy teljesen elosztott file rendszer (alapértelmezetten 3 helyre replikál). Maga a raid vezérlő sem ajánlott (ha meg tudod oldani hogy csak a read/write cache-t használod belőle, akkor maradhat).
Nem tudom mire akarják használni (nem hiszem hogy az elosztott file rendszer miatt szeretnék, mert annak szar:D, hanem adatfeldolgozást szeretnének), viszont az utóbbi esetében számolj hatalmas (!tényleg hatalmas!) IO igénnyel (ezért én a shared disk-eket el is vetném helyből).
Én pont a napokban szívtam ezzel, a 20-as load, a csonttá fagyó konzol esetében sokat segít a kernel szintű finomhangolás (erre vannak nagyon jó leírások a neten, hogyan érheted el a lehető leg üzembiztosabb működést)
- A hozzászóláshoz be kell jelentkezni
Köszi.
- A hozzászóláshoz be kell jelentkezni
Én erre a kupacra úgy tennék hadoopot, hogy mind az 5 gépen raid0-ba raknám a diszkeket, az 5 gép lenne az 5 node,a nas-t meg backupra használnám max (ha egyáltalán).
--
Gábriel Ákos
http://i-logic.hu
- A hozzászóláshoz be kell jelentkezni
Ezzel duplázod a diszkhiba miatt kieső node valószínűségét
Banyek, félrement. A raid0 ötletre szántam.
- A hozzászóláshoz be kell jelentkezni
Igen, ez egy tradeoff a teljesítmény és a megbízhatóság között. Mivel a hadoop eleve ad neked redundanciát, el kell döntened, hogy megéri-e x évente elpusztuló diszkek cseréjét túlélni a node-oknak (mert maga a hadoop túléli ugye) vagy inkább a folyamatos dupla teljesítményt választod.
Döntési helyzet, nem abszolút igazság. Ha mondjuk a node-ok félig sincsenek kihajtva io-ban, akkor érdemesebb a raid1-re tenni, ha meg ki vannak hajtva mint állat, akkor raid0-al tovább elmehetsz.
--
Gábriel Ákos
http://i-logic.hu
- A hozzászóláshoz be kell jelentkezni
Szerintem joggal feltételezhetjük azt, hogy a hadoop-ot nem filerendszernek szeretnék használni, innentől kezdve a legkissebb job is szép nagy maflást tud adni a komplett clusternek.
- A hozzászóláshoz be kell jelentkezni
Köszi.
- A hozzászóláshoz be kell jelentkezni
A hadoop mire lenne itt használva?
Egy picit érdekes egy egy központosított integrált blade keretben csináltok elosztott rendszert.
- A hozzászóláshoz be kell jelentkezni
A hadoop funkcionalitása kicsit továbbnyúlik mint egy szimpla elosztott filerendszer. Elosztott filerendszerre van jobb megoldás is, ami nem egy javas csuwakka
- A hozzászóláshoz be kell jelentkezni
Pont a blade részével nincs semmi para kb.
Manapság kapsz kilóra 2.5-es 300-as SAS diszket, azzal ez a koncepció teljesen életképes. A storage-ot nem értjük :)
- A hozzászóláshoz be kell jelentkezni
sub
- A hozzászóláshoz be kell jelentkezni