epitsunk SSD-s storaget (#2)

 ( NagyZ | 2013. október 23., szerda - 20:11 )

akkor folytassuk a multkori topicot, az mar kicsit zsufi lett.

eljott az ido, amikor annyi VMunk futkoraszik, hogy epithetek egy csak SSD-kbol allo storaget alajuk :-)

a kovetkezot neztem ki:
- Supermicro 216BE16-R920LPB
- 16db Intel S3500 480GB SSD
- LSI 9211-8i vagy LSI 9207-8i, ha jol latom, e ketto kozott nincs nagy kulonbseg

a tetejen freebsd+zfs lenne raidz2-vel, vagy raid10. nyilvan a tobb hely jobb lenne, es elvileg raidz-vel meguszom a write penaltyt.

velemeny?

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

FreeBSD? Hát meg vagy te bolondulva?
(Rejtett sub.)

akko' nexenta ;)

az "A" chassis jobb lenne, viszont nem tudok beszerezni sehogy emberi idon belul (3-4 het alatt max).

Erősen kiváncsi leszek azoknak az MLC-s SSD-knek az élettartamára. Szép a tech sheeten az a 2 millió órás MTBF, meg az 5 év garancia...

en nem felek ettol, plusz ott az a TBW ertek is, ha megnezed, amit lehet normalisan monitorozni.

275 TBW vs 73TBW a samsung 840pron, btw.

Mi elkezdtünk SSD-kkel homokozni pár storage rendszeren kb. két évvel ezelőtt, de aztán szépen visszaálltunk HDD-kre. Biztos remek dolog a TBW-t monitorozni, de nekünk az SSD-k úgy döglöttek ki sorban, hogy egyszer csak minden előzmény nélkül "nyekk!"... (Ez mondjuk főként a controller sz.rságára utal, nem a flash csippére, de az SSD-knek úgy tűnik, hogy lelkük van...)

Két az kb. épphogy az SSD hőskor végét jelenti. Arányosan nem kettő, hanem sokkal több év tapasztalatot gyűjtöttek a gyártók a jóval szélesebb körű felhasználással. Ez nem csak az SSD, hanem a mindenféle vezérlőgyártókra is igaz. A NagyZ által írt S3500-as SSD entry level datacenteres eleve.

Nekem is dobott ki Intel kontroller négy, raid10-be rakott ssd-t a tömbből 10 percen belül nem egyszer, hogy rossz az SSD - aztán kikapcs/bekapcs után simán vissza lehetett építeni a tömböt - ezt sajna kézzel meg kellett csinálni, de utána egy fsck kellett csak, és ott volt rajtuk rw-ben minden. Úgyhogy attól, hogy a kontroller azt mondja,hogy kuka, még nem biztos, hogy tényleg az...

Nekem ugyanez, csak sw raid10 es nem epult ossze utana.
SVN repo volt rajta, nagy volt a boldogsag:)

tompos

Azért egy mysql DB-t replikából visszapakolni, nagyjából hajnali egy és három közötti kezdettel is komoly örömforrás tud lenni... :-P

Ez esetben meg adott egy szep nagy lokest a git terhoditasanak a cegen belul.

tompos

Flash System 710/720/810/820-ra nincs pénz?

azert joval dragabb ez igy, mint epiteni egyet :-)

Nyilván, de gondolom nem ezzel szeretnél elpepecselni heteket, mikor erre van kész megoldás.
Ha FC helyett 10Gb iscsi kell, akkor Storwize V3700/V7000-et tudnám javasolni, annyi SSD/HDD-vel, amennyire csak szükség van.

ismerem a storwize sorozatot (konkretan nalunk fejlesztik az SVC-vel egyutt egy reszet), de megis inkabb epitek.

penteken megjott a haz ill a HBA, hetfon megjonnek a diszkek.

hali, ssd-knél nem áll fent az a veszély, hogy ha raid1(0)-ben használokd őket, akkor az azonos mennyiségű irás miatt egyszerre döglenek ki? van erre valamiféle megoldás, vagy egyszerűen nem életszerű ez a helyzet? még annó olvastam róla hogy valaki 1-2 hét eltéréssel szokta betolni a 2. diszket -raid1nél-, hogy ezt a problémát kikerülje, de gondolom van valami értelmesebb módja is:)

de, akar igazad is lehet. en azert nem felek ettol, mert ahogy mar irtam fent, a TBW erteket lehet monitorozni, tehat tudunk proaktivan cselekedni (barmikor venni par darabot es betolni nalunk nem problema), illetve az, hogy a TBW ertek eleri a datasheetben levo maximumot, nem jelenti, hogy meg is fog halni a diszk.

ha meg is halna, valoszinuleg ceph lesz rajta, igy akarhany diszk elkezdhet meghalni, majd rebalanceolja a ceph.

harmadreszt pedig altalaban nem ugy halnak meg, hogy nem tudod olvasni, hanem csak nem tudsz irni ra.

harmadreszt pedig altalaban nem ugy halnak meg, hogy nem tudod olvasni, hanem csak nem tudsz irni ra.

Erre azért ne vegyél mérget. Az xtremesystems forumon, amíg aktív volt az SSD gyilkolós thread (linket most lusta vagyok előkeresni), elég sok példányt írtak halálra és ritka kivételnek számított az, amelyiknek az utolsó állapota visszaolvasható maradt. Az ottani fórumozók teóriája pont az lett, hogy az írások számával a data retention time is romlik és végül pont ez okozza a halálát. Általában akkor döglik meg végérvényesen egy SSD, amikor már a page táblákat nem tudja visszaolvasni a kontroller.
---
Régóta vágyok én, az androidok mezonkincsére már!

értem, köszönöm a válaszod:)

Jut is eszembe: min akarod kiajánlani? 10GBe+iSCSI, vagy esetleg FCoE? Vagy valahogy NAS-t akarsz belőle?
---
Régóta vágyok én, az androidok mezonkincsére már!

most ugy nez ki a helyzet, hogy tobb ilyen box lesz, es ceph, a vmwarek fele pedig iSCSI over rbd.

a switch amibe minden van dugva, az tud FCoE-t nativan, tehat ha FC targetkent kiajanlom, akkor mehetne FCn is, itt talan nyerhetek a latencyn.

sub

Az alapveto problema, hogy a 6Gbps lofaszt se er SSD-vel. En is jatszok ilyenekkel, 24x480GB Intel SSD meg LSI 9286-8e, es egyszeruen nincs mar hova skalazodni. 12Gbps-bol csak HBA van, de az nekunk nem jatszik, mert Windows rendszert hasznalunk, ott meg nincs nested software raid. Lemertuk 24, majd 12 SSD-vel is, es guess what, kb. ugyanazt nyujtjak. Tehat vagy a RAID kartya, vagy a SAS Expander, vagy a picsa se tudja, hogy mi, de szuk.

Ugyhogy a megoldas az lett, hogy vettunk meg egy JBOD2000-et meg meg egy LSI-t, es a JBOD-okban minden 2. foglalatban van SSD, hogy a SAS csatlakozok meg az Expander egyenletesen kapja az ivet. Igy van a 12-12 SSD RAID10-ben, es azok szoftveres RAID0-ban, tehat a vegeredmeny RAID100. Az eredmeny igen meggyozo, a szekvencialis olvasas pl. felmaszott 4GBps-re (elotte 2.8 volt). Egyebkent erdekesseg, hogy mindez csak Win2012-nel van igy, a 2008R2 gyalazatos eredmenyeket produkalt ugyanebben a setup-ban.

Es termeszetesen mindezt szigoruan csakis PCI-E 3-as lapon szabad hasznalni, a 2-es keves. A vicc, hogy meg ezzel is sikerult beszopnom, mert az Intel szerverunk legujabb BIOS-aban PCI-E teljesitmeny regresszio van (Intel altal megerositve, eleg gaz), ugyhogy kurva nagy mak, hogy elotte es utana is lemertuk, kulonben az eletben nem vesszuk eszre.

Szoval ha van ra mod, mindenkepp merd le mondjuk 8 SSD-vel, es ha nem esik le felere, akkor az SSD-kben meg lenne kakao. Ha ez igaz, akkor erdemes lenne cserelni 12Gbps HBA-ra. Az a helyzet, hogy nekunk is van egy (9300-8e), amit kurvara nem hasznalunk (a fonok tevedesbol rendelte, amig ra nem jott, hogy nem lesz jo semmire), ugyhogy akar le is boltolhatnank, ha erdekel (es ha jo nektek a kulso SAS). De persze ehhez 12Gbps storage keret is kene, marpedig a JBOD-bol pl. kapasbol nem letezik ilyen, de mast se nagyon lattam meg.

6gbps pont eleg SSD-vel nekunk, mivel a gep nem lokalisan van hasznalva, hanem halozaton keresztul, igy ha akarok se tudok berakni 2x, esetleg 4x10Gbps-nel tobbet :) (ami nekunk eleg)

ugy latom, nem HBA-val hajtod, hanem LSI raid kartyaval; fastpath kulcsot vettetek hozza? ha nem, akkor ne csodalkozz, hogy nem megy jol SSD-kkel, a nelkul nem lehet kihajtani azt az IOPS-t, amit nativban tudnanak a radugott eszkozok.

foleg erthetetlen, hogy miert nem egy HBA-val hajtod, ha mar ugyis sw raid...

raneztem hirtelen erre az intel jbod2000-re, hat nem csoda, hogy nem lattal kulonbseget 12 meg 24 diszk kozott, ugyanis single expanderes a backplane, azaz (XMI szerint, es en is hajlok erre) SATA diszkkel csak 4 csatornad van, azaz 24 GBps, tokmindegy, hany diszket raksz bele (per SFF port);
a dual expanderes valtozatok nem segitenek ezen, ugyanis azok csak standby-ban vannak.

ennek fenyeben persze a GBps erdekes, hiszen elvileg nem fer at fizikailag :)

az egyetlen meres, ahol kijohet a skalazodas ez esetben a 4k-s random write teszt (100% surfacen), ha ott skalazodik, akkor oke a dolog, ha nem, nem. (szinte biztos vagyok benne, hogy ott skalazodni fog egy normalis HBA + sw raiddel).

hetfo reggel megjon a 16db SSD amivel en tervezem hajtani, le fogom merni 8al, meg 16al, mi vegulis ceph mellett dontottunk, megnezzuk.

mire hasznaljatok amugy?

Én csak kérdeztem, nem állítottam. :) Mindazonáltal van logika benne, hogy a diszkek két csatornája teljesen egy-egy szeparált plane-re legyen bekötve.

Mostanában EMC dobozokkal vagyok kénytelen foglalkozni melóhelyen, azok biztosan így működnek, minden diszknek a két csatornája a két független kontroller unitba (SP) van bekötve, amik failoverben át tudják venni egymástól a tömbök kiszolgálását. A régebbi FC-s és az újabb SAS-os boxoknál is pont ugyanaz a topológia. Más kérdés, hogy EMC-be, ha megfeszülsz se raksz bele 3rd party diszket, úgyhogy a single channel, illetve SAS-ba SATA eset elvileg nem is állhat elő. Bár az EMC-nek van SATA-s diszk drawere is, de olyanhoz nem volt szerencsém, az nem tudom belül hogy van megoldva.
---
Régóta vágyok én, az androidok mezonkincsére már!

Az aktuális midrange storage SAS és NL-SAS meghajtókat használ, így már nincs külön fiók az eltérő lemezeknek. Az egy generációval korábbi pedig úgy működött, hogy egyféle fiók volt, és attól függően FC vagy SATA üzemmódban működött, hogy milyen diszket raktál bele először. A SATA diszkek kaptak egy busz illesztőt, mert a backend FC volt. Még tovább visszalépve a múltba, na akkor tényleg volt külön fiók.

Köszönöm. Nekem sajnos főleg Cx3-asok vannak, ami erősen nem mai darab, de nyúlkáltam már Cx4-eseken és VNX-en is. Ez utóbbi a full SAS, a korábbiak mind FC-k. Úgy láttam, hogy a Cx3 és a Cx4 fiókok csereszabatosak, úgyhogy a váltás valahol a Cx3 előtt kellett, hogy történjen talán Cx300/500/700-asnál?
---
Régóta vágyok én, az androidok mezonkincsére már!

LSI fastpath van.

Mint mondtam, Windows-on nincs nested sw raid, marpedig anelkul nehez lenne RAID100-at csinalni :) Vagy RAID10-et. De amugy se veszem annyira zokon, hogy hardverbol tudjuk gyorsitani a RAID-et, nem pedig sw-bol ;) Nyilvan a legjobban annak orulnek, ha hw-bol menne az egesz, de ez a szuk csatolo miatt nem fog menni. En legalabbis nem tudok olyanrol, hogy 2 RAID kartyat valami crossfire-szeru csatoloval osszekossenek, de ha ilyen van, szolj :D

Lattam kulonbseget a 12 vs 24 esetben, es annyi volt a lenyeg, hogy volt ami kifert rajta, volt ami nem. Tehat volt, ahol az SSD rendesen ki volt hajtva, volt ahol a csatolo szuk volt. Ezert kell a ket JBOD.

Amire te gondolsz, az szerintem nem Single Expander, hanem Single Converter, es Dual-os van, ami valoban a HA miatt lenne, de egy converter board-on nem 4 port van, hanem 8. Tehat igy a mi JBOD-unkon igazabol 24 port van (3 converter-en), amibol 8 a valos hasznalatra, 8 HA, 8 pedig stack-eleshez van/lenne. Ebbol mi csak 8-at hasznalunk. Es igy de, atfer fizikailag :)

Amugy pedig Oracle-hoz van/lesz.

Mi is eppen ssd storage epitesen dolgozunk, epp belefutottunk par gubancba a sata tunneling protocol (stp) korul.
Ezt kivaltani hivatott, vettunk (elso korben tesztnek 2 db) LSISS9252 sata sas interposert (ssi).

A problemank evvel csak az, hogy sata3 dvisc v. ssd hasznalata eseten egyszeruen nem zajlik le a link negotiation normalisan a sata oldalon, es az ssi nem latja az discet.

Az eszkozoket amugy a supermicrotol vettuk, AOC-LSISS9252, a pontos lsi tipusszama pedig L3-25111-00E.
Az lsi csak az oem "gyartokon" keresztul hajlando supportot adni, de a supermicro hivatalosan meg csak nem is tud errol az eszkozrol, kizarolag 1-1 kosza emlites van az oldalaikon rola.

Az eszkoz leirasaban konkretan az szerepel hogy sebessegtol es merettol fuggetlenul minden sata disccel mennie kellene.

A kerdesem feletek, hogy talalkoztatok e mar evvel az eszkozzel, valaki belefutott e mar ebbe a hibaba, ha igen, islkerult-e megoldani, es hogyan?

Letezik mas gyartotol is hasonlo chip (The Marvell 88SF9210/9110/9118). Valaki talalkozott e mar ilyenre epulo interposerrel?

Ezeket az ssd storage sebessegeket amiket elertetek, sas ssdvel / interposerrel / csak siman, sata ssd sas portra dugva modon ertetek el?

Elore is koszi a viszajelzeseket!

en is gondoltam, hogy berakok interposert, de miutan utananeztem, letettem rola; mindenki arrol ir, hogy vagy mukodik, vagy nem, es hogy kicsit zsakbamacska.

nem irtad, sw raiddel hajtjatok, vagy csak HBA-n log?

Csak hbakent hasznaljuk, zfs van mogotte.

Problema meg az nalunk hogy az expander, ami a hazban van nem igazan sas-2 kompatibilis. A sas-1 kartya meg stp eseten nemmmmm az igazi (LSI tervezesi hiba)

Apropo, valaki tud C0 chipes lsi sas3081e es vagy sas3081e kartyat? Egyaltalan letezo dolog? nemely forumon olvastam hogy letezik, az lsi viszont nem ad ki hozza egyaltalan firmware-t.

Kicsit kezdem elvesziteni a bizalmamat az lsiben. Az lsi expander nem kompatibilis az lsi kartyaval. az lsi interposer nem kompatibilis a sata3 mal (az oke hogy nem lesz 6GB/sec, de hogy egyaltalan ne menjen az gaz), illetve az lsi sas1068e chipek tervezesi hibasak a b3 chippel bezarolag (az is)

De tenyleg ... Valaki tud C0 kartyarol? latott mar valaki eloben? meg tudja mondani valaki a pontos nevet/szamat ... L3-???

ha valaki cephel akarna csinalni (mint en), es esetleg 16-24 SSD-t akar egy gepbe rakni, akkor mindenkepp valami dual procis, 6/8/10 coreos csodageppel induljon neki. egy osd elvisz majdnem egy teljes procit, igy en a legkozelebbi konfigba (amit ha minden jol megy, meg novemberben berakunk) 2xE5-ot fogok rakni (lehet, hogy 8 magost kene...).

Nincs vele tapasztalatom, csak epp most olvastam, hogy 3.13-as kernelbe egyebek mellett bekerul a multi-queue block layer ( http://www.phoronix.com/scan.php?page=news_item&px=MTUwNDc ), netan ezt probaltad, hogy halozaton keresztuli eleres eseten is hasznos-e (latency-ben nem hiszem, de iops-en talan)?

majd megnezzuk, ha bekerul a RHEL/Novell/Ubuntu kernelekbe :)

Tudom, nem olcsó amit írok, de FusionIO a gépekbe és Infiniband a gépek közé? Kurva drága, de irgalmatlanul gyors.

feleslegesen draga, es a SPOF-ban nem segit, mindenkepp cephet szeretnek.

Ezek miben is ütik egymást? A FusionIO ugyanúgy local storage mint egy SATA/SAS portos SSD, csak annál sokkal gyorsabb, lévén a PCIe buszon ül, nem pedig a lassú SATA/SAS porton. Az Infiniband meg gyorsabb networköt biztosít, mint az Ethernet. Az mondjuk kérdés, hogy tud-e a ceph iSER-t, mert azzal ütős igazán az Infiniband, de ha nem, hát nem. Itt éppen azt írják, hogy a ceph nem sokat profitál az RDMA-ból, de azt kétkedve fogadom, hogy az IPoIB bőven elég és nem kell iSER. Ha ez így van, akkor egyéb okokból lassú, ami nem hangzik jól a füleimnek.

azon uti egymast, hogy semmi ertelme mondjuk ceph ala berakni 1-1 fusionio kartyat 1-1 geppel, mert pont a ceph lenyege veszik el :)

van ilyen kartyank, szeretjuk is oket, de erre a feladatra nem ez volt a legjobb megoldas. mivel halozaton at erem el _mindenkeppen_, igy a latencyn nem nyerek semmit, a skalazhatosagban a ceph pedig odaver neki a $/GB-ban.

Csak support ne kelljen :) (vagy inkább :( )

off/ ennyire olcsó lett az ssd? :D
............
Nem ígérek semmit, de azt betartom!

~1.2$/GB. szerintem ez nem draga.

"- LSI 9211-8i vagy LSI 9207-8i, ha jol latom, e ketto kozott nincs nagy kulonbseg"
A PCIe 3 támogatás a különbség, ami néha nagyon fontos lehet.

konkret szamokkal is ala tudnad tamasztani?

ugyanis a per lane ertekek:

Idézet:
v2.x: 500 MB/s (5 GT/s)
v3.0: 985 MB/s (8 GT/s)

a lap, amiben van, az elvileg x4, tehat 2GB/s, azaz kb 250MB/s. ezt SSD-kkel ki lehet tolni, alairom, viszont 2GB/s-nel mar halozati problemaim akadnak (most 2x10GBe-n log).

most jelenleg ket doboz van a ceph alatt (8-8 SSD-vel), igy a random iras ~760MB/s, tehat latszik, hogy ez a rendszer ennyit tud jelenleg.

de megjobb kerdes: mivel tolod ki a PCI-E v3 x16-ot? ha jol szamolom, az ~16GB/s, 8 csatornara, 2GB/s kene / SSD...