Ceph Bluestore

 ( csardij | 2017. június 19., hétfő - 18:35 )

Hellósztok,

Kipróbáltam egy teszt telepítésen ezt a Bluestore megoldást (Kraken-nel), és hát azt kell mondjam, elképesztő! Jóval gyorsabb mint a korábbi xfs/ext4 alapú megoldás (majd csinalok tesztet ugyaabba a virtuális gép clusterbe, hogy mennyi jön ki).

Ahogy látom az egész SSD journal dolgot átalakították, most van ez a block.wal és block.db. Nem igen találni még a neten ezekről sok infot, hogy érdemes itt most csinalni? Mehet mind a két block* egy SSD-ra (ha korábban SSD journal volt, gondolom ez áll legközelebb hozzá)?

A másik, hogy mikor lesz ez teljesen supportált, atomstabil dolog?

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

A Kraken-ben (ahogy te is említetted) már benne van ami stable verzió, viszont még experimental-ként van jelölve. A mostani dev ágon viszont nagyon nagy a mozgolódás a bluestore kapcsán, szóval lehet hogy a következőben (Luminous) már default lesz, de még semmi hivatalos nincs


// Happy debugging, suckers
#define true (rand() > 10)

Ugy tudom, hogy ez lesz a default a kovetkezobe.

Mostanában kéne, hogy jöjjön az L. Én úgy olvastam, hogy itt a journal már csak a metaadatokra vonatkozik, az adatok át se mennek rajta. Sok esetben értelmét is veszti a külön journal dev. Én is kíváncsi vagyok rá, a Jewelben még szörnyen bugos volt.

Igen, nincs már kétszeres írás, ezért is hasíthat ilyen jól. Eleve az egész "journal" rész alapból is ilyen 512 mega.

Azt több helyen láttam prezentációkba, hogy a block.wal és block.db-t kirakják nvmere, vagy ssd-re.

luminous-ra idén őszt terveznek, hogy kész lesz, szokásos csúszásokat belevéve, év végére vagy jövő év elejére lehet stable.

Azt nem értem, ha azt írják, hogy most a Krakenbe már teljesen stabil a Bluestore, akkor miért nem javasolják a használatát (csak testre meg devre)?

Múltkor még úgy volt, hogy tavasszal jelenik meg. Bár az, hogy már nyár van, ezt nyilván invalidálja :)
A changelogban rengeteg bugfix volt az rc-knél is, azért nem bíznám rá az éles adatokat.

Viszont:
http://docs.ceph.com/docs/master/release-notes/

bluestore: ceph-disk: add –filestore argument, default to –bluestore (pr#15437, Loic Dachary, Sage Weil)

Szóval már az rc-től ez a default.

Sage azt mondta majusban a Ceph Daysen, hogy L-tol ez a default, supported, atomstabil verzio es az nyaron jon. mivel most van RC, igy szerintem siman elkepzelheto, hogy lassan jon - az eredeti terv junius volt, szerintem julius lesz.

mehet a rocksdb SSD-re, de nyilvan jobb az NVMe (ha van).

Milyen aranyba, mekkora meretunek kell lennie a dolgokbak itt?

Mivel kevesebb a kiirando adat lehet akar 10:1 vagy 12:1-hez aranyt hasznalni?

Vagy akar NVRAM-ot hasznalnj, ami pici de gyors (bar lehet ilyennek csak eleve SSD osd-k eseten van ertelme).

az aranyokhoz ezt javaslom de nyilvan ki kell merni magadnak :) ez alapjan 1db P3700/P4800X 8db TLC-s OSD-hez jo

nvramot nem hasznalnek, mert ha elveszett a metadatad, akkor elveszett az OSD is (AFAIK)

NVRAM = non Volatile RAM, kevered a RAMdiskkel.

van benne egy flash backend és BBU amire ki/be menti az adatokat leállításkor.

Amit linkeltél az a Bluestorehoz való? Mert mostmár teljesen más ezzel a leányzó fekvése, nem ír ki minden adatot a journalra, csak a rockdb dolgait (levelezőlisták alapján nem akár megadható ugyanaz az egy raw device több osd-hez is journalként).

pontosan tudom, hogy mi az az nvram, de a legnagyobb amit lattam belole, az talan 16 giga volt - letezik mar sokkal nagyobb? az nvdimmet nem szamolom ide, persze az is biztos kiraly :)

megnezted a slideokat? bluestoret merik vegig optane/p3700en, van kulon WAL latency chart is.

a mostani ~400GB-os optanek nem olyan dragak, ha belefer, szerintem az a legjobb.

Ja, 16G (ami még megfizethető), de mivel alapból is ilyen 512 Mbájtos journal mérettel operál, ez elég 32 OSD-nek. Vagy 16 1 gigásnak. És gecigyors.

(ha pontosan tudod, azért ne írj már olyat, hogy elfelejti a tartalmát...)

igen, jogos, en tudtam hogy mire gondolsz csak amikor leirtam en masra gondoltam, ezert mea culpa, en hibaztam, ket dologrol akartam egyszerre beszelni :)

az 512MB journalt nem tudjuk egyelore jo-e, nem tudjuk, hogy kell-e nagyobb kesobb; plusz ha jol tudom, a 16GB-os eszkozokon maximum SAS csati van, nem?

Hát, fogalmam sincs, de nem hinném, mert akkor nem tudnád a ram sebességet kihasználni, nem? Szóval gondolom direkt a PCIe-on van valami memóriavezérlő, de passz.

Találtam egy ilyet, ami nem mai, de gondolom az elv nem igen változott: http://www.storagereview.com/pmc_nv1604_flashtec_nvram_drive_review

Tesztelés közbe belefutottam ebbe a hibába én is (simán csak adatokat másoltam fel): http://tracker.ceph.com/issues/18698