Apache Hadoop - blade szerverek fájlrendszere?

Fórumok

Sziasztok,

Elő kell készítenem blade szervereket Apache Hadoop telepítéséhez. A kérés rendkívül rövid volt, telepítsek rá RHEL 6.3-at és készítsem elő a gépeket, hogy lássák/elérjék (mutipathd) a network storage-t. És tudom nem én vagyok megfelelő szakmailag a feladathoz... ez van.

Adott 6 db új IBM Blade szerver 2x1TB disk. Amik lehetnek külön, RAID0 és RAID1-ben. Adott egy 8TB-os IBM Network Storage (RAID5-tel).

Az egyik Blade-re feltettem a RHEL 6.3-at, RAID1-et használtam a lokális diszkekhez, a storage manager-rel beállítottam hogy a 6 blade lássa és elérhesse azt.

Közben szóltak (itt a megbízót értem a multicégen belül -> másik divizió), hogy nem kell a RAID1. A levélre, hogy akkor RAID0 vagy anélkül persze az adott szakértő (aki majd telepíti a Hadoop-ot) nem válaszolt. Persze a melóval nem vagyok kész...

Amíg várok a válaszra azért kíváncsi lennék a véleményetekre: milyen partíció, milyen fájlrendszer (LVM avagy sem), stb...

Segítségeteket köszönöm.

ui.: Hogy mire és miért így, azt nem tudom. Így az ilyen jellegű felvetésekre nem tudok válaszolni. Bocs.

Hozzászólások

Számomra csak az fura h. a Hadoop az inkább Distributed cluster, mintsem shared FS kelljen neki.
Persze lehet sharedben is tolni, de kíváncsi leszek hogyan oldja meg a szaki :)

Szerintem simán elbeszéltek egymás mellett.
A rendszer legyen raid1-en, ne essen ki egy node egy szutymák diszkhiba miatt.
Viszont a storage-on nem kell védelem, azt a hadoop megoldja - feltéve hogy fizikailag független területeket osztasz ki a szervereknek. Perverz lesz a konfig, mert a storage kifelé lun-okat prezentál elfedve a fizikai diszkeket, de az meg neked nem jó, mert ha elszáll egy teljes raid group, akkor az összes node kiesik - ergo 1 diszk = 1 rg = 1 lun (kis sarkítás de kb ez jön ki a hadoop számára leginkább transzparensen).
Ez a hadoop+storage jó kis fejtörő, sokféle megoldása van attól függően mit akartok kihozni belőle a végén.

Másik lehetőség: a raid kártyától külön kéred a két diszket, OS alól tükrözöd, de csak a boot-hoz szükséges partíciókat, a maradék területet meg direktben odaadod a hadoop-nak. Igazából a hadoop erről szólna, hogy a node-ok dobják össze a tárterületet.
A storage-ot meg mondják meg hogyan szeretnék.

Nekem is az a lehetőség tűnik jobbnak ha a Hadoop-ra bízzuk a fizikai háttértárakat, share nélkül. Ahogy mondjátok és olvasom, erre való/ezt tudja.

Ami fura, hogy szerverekben lévő RAID1-re mondták, hogy nem kell. Így ugye egy disk hiba miatt kieshet egy node...ők tudják!

Majd megírom mi lesz(tt).

Szia!
Nem meglepő, a hadoop HDFS része egy teljesen elosztott file rendszer (alapértelmezetten 3 helyre replikál). Maga a raid vezérlő sem ajánlott (ha meg tudod oldani hogy csak a read/write cache-t használod belőle, akkor maradhat).
Nem tudom mire akarják használni (nem hiszem hogy az elosztott file rendszer miatt szeretnék, mert annak szar:D, hanem adatfeldolgozást szeretnének), viszont az utóbbi esetében számolj hatalmas (!tényleg hatalmas!) IO igénnyel (ezért én a shared disk-eket el is vetném helyből).
Én pont a napokban szívtam ezzel, a 20-as load, a csonttá fagyó konzol esetében sokat segít a kernel szintű finomhangolás (erre vannak nagyon jó leírások a neten, hogyan érheted el a lehető leg üzembiztosabb működést)

Én erre a kupacra úgy tennék hadoopot, hogy mind az 5 gépen raid0-ba raknám a diszkeket, az 5 gép lenne az 5 node,a nas-t meg backupra használnám max (ha egyáltalán).

--
Gábriel Ákos
http://i-logic.hu

Ezzel duplázod a diszkhiba miatt kieső node valószínűségét

Banyek, félrement. A raid0 ötletre szántam.

Igen, ez egy tradeoff a teljesítmény és a megbízhatóság között. Mivel a hadoop eleve ad neked redundanciát, el kell döntened, hogy megéri-e x évente elpusztuló diszkek cseréjét túlélni a node-oknak (mert maga a hadoop túléli ugye) vagy inkább a folyamatos dupla teljesítményt választod.

Döntési helyzet, nem abszolút igazság. Ha mondjuk a node-ok félig sincsenek kihajtva io-ban, akkor érdemesebb a raid1-re tenni, ha meg ki vannak hajtva mint állat, akkor raid0-al tovább elmehetsz.

--
Gábriel Ákos
http://i-logic.hu

A hadoop mire lenne itt használva?
Egy picit érdekes egy egy központosított integrált blade keretben csináltok elosztott rendszert.