Dell Storage SAS-os SSDk éllettartama, raid típusok, egyéb tapasztalat?

Sziasztok!

Tervezünk beszerezni egy Dell storage-et kb. 12db 3T SAS-os SSD-vel. Kérdésem az, mennyi lehet az SSD-k körülbeüli élettartama? A Delles Adapt megoldást használnánk. Milyen buktatói lehetnek még a dolognak?

Akinek van ezzel kapcsolatos tapasztalata szívesen venném ha megosztaná velem.

Hozzászólások

Szerkesztve: 2024. 01. 26., p – 09:37

 

Az ssd-k élettartamát Drive Writes Per Day (DWPD) és Terabytes Written (TBW) értékkel határozzák meg melyet az eszköz adatlapján meg lehet tekinteni. 

 

Hármas........alá............kettes.........................egyest írtam be.

Akkor ez egy PowerVault lesz, ha ADAPT-ot említettél. Előre senki nem tudja megmondani mennyi lesz az élettartmuk. Nyilván a használat erősen befolyásolja, ha van rá support akkor cseréli a gyártó kérdés nélkül. Nagyon nem hullanak ahhoz képest amennyi az ügyfeleknél van, elég vegyesen felhasználási mód szerint is akár r/w cache, vagy sima adattárolás. Eddig Kioxia, Samsung és Intel SSD-ket láttam Dell meghajtóként.

Szia!

Igen PowerVault :).

Használat szempontjából levelező szerver, adatbázis, fájlszerver, kb 400-500 felhasználó.

Kb. hány évre érdemes tervezni? Mennyi év után számíthatunk arra, hogy elkezdenek kipotyogni a lemezek? A fent felsorolt márkák közül melyiket ajánlanád?

A meghibásodást egy haranggörbe szerint kell elképzelni, nem fognak egységesen x év után sorban meghalni. Amíg support van rajta addig cserélik, nem kér külön vizsgálatot. Márkát nem tudsz választani mivel egy kereskedelmi cikkszám alatt van az összes pl. 3,2TB MU SSD. Szerviz PN az már különbözik. Általában egyformával jön egy tároló, bár volt már példa az ellenkezőjére is. Aztán, hogy évek múlva milyet adnak cserének azt már senki sem tudja. 

Ha jól láttem Read Intensive (1DWPD) vagy Mixed Use (3DWPD) SSD meghajtókból lehet választani. A 3,84 az RI, a 3,2 MU.

Szervereknél van egy harmadik kategória is a Write Intesive (WI), de itt nem láttam olyan meghajtót.

Szerkesztve: 2024. 01. 26., p – 11:42

Általánosságban erre senki nem fog neked tudni válaszolni!
Dell és SAS kombóból legalább 100 féle SSD biztosan létezik, ahogy másik is írták 3-4 féle gyártótól.
Az sem minden1 hogy pl. datacenter SSD-t nézel, vagy simát, teljesen más használatra tervezték őket.

De hogy legyen pici gyakorlati hasznom is.
Hasonló méretben, pl.: Dell MZILS3T8HMLH0D4 3,84 Tb SSD-ket használunk kb. 20-25 db-ot, átlagosan 4 évesek, nem volt még meghibásodás.
Mindegyik storage-ban megy, változó felhasználás mellett.

Ha ez az éles rendszer, és biztosra akarsz menni, akkor teljesítmény- és kapacitás igénytől függően vagy RAID6-RAID60, vagy RAID10, de 3-way tükrökkel tervezzetek szerintem.

RAID5 abszolut felejtős ha fő rendszer, a RAID10-nél meg sima 2 diszkes tükör esetben tükrönként 1 diszk elvesztsénél elveszik a redundancia, semmi védelmed nincs a hibás diszk cseréjének befejeződéséig. A 3-way mirror eléggé tárhely "pocsékoló", de nagyon jó a hibatűrése és nagyon gyors a helyreállási ideje (a többi RAID típushoz képest).

Nem tudom ezt mire alapozod. Manapság egy Dell brand blokkos flash tárolóban RAID5 vagy 6 vagy analóg egy vagy kettő diszk kiesését elviselő algoritmus dolgozik. A régi tárolók RAID 0,1,10,4,5,6 választéka elmúlt már, a többszörös mirror meg ezekben nem is létezett. Éles rendszert nyugodtan bízz rá R5-re, ha nagyobb biztonságot akarsz akkor R6. Ezen felül replikálhatsz még, és backup.

Nem igazán értem amit írsz. A RAID5 az RAID5 maradt, és pont ugyan azért nem jó SSD esetén, mint már HDD esetében sem volt javasolt 2010-ben sem a több TB-os HDD-k megjelenésekor... Persze SSD-nél a sokkal gyosabb működés miatt csökken (elvileg) a veszély, de alapjában véve ugyan az a veszély megmarad.

Amikor RAID5-ben kiesik egy diszk, védtelenné válasz. Először is azonnal kell intézkedned a cseréről, nincs olyan opció, hogy "szombat van, majd hétfőn munkakezdéskor". Kicseréled a diszket, elkezdi a tömböt újraépíteni, majd egy még jó diszken előfordul 1 db nem javítható olvasási hiba (ergo egy második diszk is használhatatlanná válik a RAID szempontjából). Itt a tömbnek vége. Persze ezt mondhatjuk edge-case-nek, és valóban ritkán fordul elő, de tervezéskor pont a ritkán előforduló dolgokat kell figyelembe venni, nem azt, hogy "az eddigi statisztikánk szerint ilyen nem történt".

A replikáció ha aszinkron, akkor tömb vesztésnél valószínű lesz adatvesztés is. Ha szinkron, akkor meg a pénztárca lesz sokkal soványabb, ha teljesítmény is kell. De legalább aránylag gyorsan át lehet rá állni (ellenben sokkal drágább plusz egy komplett eszköz, mint plusz 1 diszk a RAID6-hoz vagy 3-way tükörhöz...). A backup meg még ritkább általában mint a replikáció, ergo még több adatvesztéssel kell számolni a tömb elvesztése esetén. És nem vidám dolog sok TB adat mentésből visszaállítására várni...
Szerintem production rendszer alá mindenki próbál eléggé megbízható tárolót tervezni, hogy ne kelljen pingvinezni a kiesett adat és munkaidő miatt adott esetben.

Ha megelégszik OP 1 diszk hibatűréssel, akkor inkább RAID1 vagy RAID10, mert azt legalább gyors(abb)an újra lehet építeni. A RAID5-öt a legtöbb vezérlő sokkal lassabban építi újra (és közben ráadásul folyamatosan terheli az összes diszket a tömbben).

Persze ha kellően sok diszk van (12+, de inkább több), akkor ott a dRAID, ami a distributed spare segítségével sokkal gyorsabb újraépítést tud végezni, de általában nem barátja a nagy írási IOPS igénynek.

Egy normális tárolóban van hotspare - fizikai vagy virtuális (eloszott) mindegy - tehát egyből elkezdődik az újraépítés ami sokkal gyorsabb mint HDD esetén. Sőt a tárolók amikor már előre észlelik egy SSD hibázásait, már akkor elkezdik bevonni a hotspare-t (de ez már HDD esetén is így volt). Ami ha befejeződik a kihullás előtt akkor nincs RAID újraépítés csak másolás, ha nem tudja befejezni akkor a maradékra számolnak paritást. Természetesen csak azokat a blokkokat másolja amiken adat található. Szóval egyátalán nem biztos, hogy RAID5 esetén eljut addig, hogy védtelen legyél. Szóval nem kell intézkedni semmit megy minden szépen magától, jelzés az persze megy a monitoring rendszernek, és ha több hotspare van akkor ráér cserélni a diszket.

Másrészt, sok éve már nem ugyanazt a RAID5 védelmet használják amiket HDD esetén, hanem csak analógiáról beszélhetünk +1 paritás diszk, vagy +2 paritás diszk. De az egész átszabva SSD-re, nem csak alkalmazva rá a korábbi HDD-re kitalált R5.

A replikációval kapcsolatban egyetértünk.

A 7,2rpm HDD-k valóban 1TB felett csak RAID6.

Az OP által használt tárolóban bár van lehetőség hagyományos R0,1,5,6 használatára, de az ADAPT esetén egy minimum 12 meghajtóból álló csoporton a védelem 8+2 sémát követ. Bár van még más midrange tároló amiben szintén használhatók hagyományos RAID csoportok R5 (4+1), R6(4+2) induló méretekkel, de ezeknél limitált a maximális használható diszk darabszám. Ezért inkább ott is már diszk pool-t használnak ami egy plusz réteg, csak be kell szórni a meghajtókat bele, nem allokál komplett meghajtókat egy bizonyos RAID szintnek, így tud a tároló tiering-et is. Az új termékcsaládban pedig csak pool van 1 vagy 2 paritásos védelemmel. 

Az elosztott hotspare már több generáció óta járatos akár a midrange tárolókban egyátalán nincs vele teljesítmény probléma. Sőt mivel eloszlik az SSD-k között ezért gyors is.

Értem amit írsz, de...

...az még mindig nincs meg, mi a különbség a "régi" HDD-knek szánt RAID5 meg az "új" SSD-knek szánt RAID5 között. A RAID5 elosztott paritás, 1 diszk redundanciával. Mit lehetett ezen változtatni, hogy nagy SSD-nél megbízhatóbb legyen mint nagy HDD esetén volt?
Azt értem, hogy a hot-spare prefail esetén azonnal bevonható és be is vonja a vezérlő, de ettől maga a RAID5 semennyivel sem biztosabb, ha a hot-spare diszket kivonjuk a képletből.

Valamint (ezt kérdezem, nem állítom) a RAID5+hot-spare (egy normális, gyors vezérlőn) mennyivel jobb, mint ha kapásból RAID6 lenne (aminél egy diszk kiesése, prefail-je esetén semeddig sincs redundancia vesztés), merthogy azonos a diszk-szám? Jobb az IO teljesítmény, jobb az újraépítési idő? Vagy miért használna bárki RAID5+hot-spare felállást?

Miért nincs RAID1+0 3-way mirror-ral? A RAID5-6 azért nem teljesítmény bajnok (max. ha több ilyen kötetből csinálsz RAID5+0 vagy RAID5+0 tömböt), a sima mirror meg nem elég biztonságos (szerintem). Értéem, hogy SSD-k esetén nagyon gyors lesz az egész sima RAID5-6 esetén is, de SSD-hez képest nem lesz olyan nagyon gyors, csak HDD-hez viszonyítva.

Egy dolgot érdemes még figyelembe venni.
Veszel pl. 10 db SSD-t, azok elég nagy valószínűséggel u.a. gyártásból vannak.
Tegye fel a kezét az, aki még nem látott olyat hogy pl. 10 db HDD-s RAID X tömbből, amiben egyforma lemezek voltak, kiesett egy, majd kb. max egy napon belül kiesett még egy.
RAID5 bizonyos adatmenyiség felett, orosz rulett, azért egy új lemez behúzásához idő kell, ezen felül minden bentlévő lemezt "hajtasz" közben, ha pont akkor esik ki még1?

Nekem volt már olyan nyaralásom, hogy megállt egy RAID5, és valahogy vissza kellett csinálni.
Ültem a templom torony alatt, mert ott volt csak WiFi, és próbálgattam force visszarakni a kiesett lemezeket, nem volt jó élmény (de sikerült).

A választásnál tényleg a mire, és mennyi adatra a kulcsszó. 3 lemezből nem fogsz R6-ot építeni, de bizonyos lemezszám felett, azért érdemes rajta erősen elgondolkodni.

No, én is pont ezért érvelek mindig a RAID5 ellen. Persze, tök bukó a plusz egy lemeznyi elvesztett hely, pláne, ha kevés lemezből áll a tömb. De akkor is.

Persze, mindig jön, hogy különböző diszkeket, különböző gyártásból kell venni. De a valóságban ilyent senki sem csinál. Pl. rendelsz egy vadi új Dell storage-ot meghajtókkal, akkor tuti nem úgy állítják össze, hogy szedik le a polcról sorban a 1-2-3-4-5-6 havi gyártásból a meghajtót, minden hónapból egy ilyen-egy olyan gyártmányt... Ha neki is állna valaki így összeszedni, olyan falakba ütközne, amit nem tud átugrani: összesen 2 HDD gyártó van (SSD-nél több mondjuk), a hazai disztribútor berendelt 3 havi mennyiséget ami egy gyártásból jön (mert annyi idő a következő beszállítás pl.), ráadásul mikor megszületik egy döntés, hogy akkor kell a storage, nincs idő várni pár hetet-hónapot, hogy különböző gyártásokból jöjjön az a sok diszk, szállítsd le jövő hétre üzemkészen.

Mert még mindig nem esett le hogy a RAID akármennyi az availability-t növel, semmi mást. Mindentől függetlenül szükség van mentésre.
Megpukkant a RAID? Nosza, rebuild from backup és post-mortem.

Post mortem: Hozta az ígért SLA-t? Ha igen akkor nincs szükség változtatásra. Nem? Akkor jöhet a következő lépés: találjuk meg mit kéne változtatni és hogyan, azután változtassunk. 

Gábriel Ákos

Abban a tekintetben nincs különbség, hogy 1 vagy 2 SSD kiesést tolerálnak. A többit nagyon nem kötik az ember orrára, olyan példát tudok mondani, hogy több CPU magra optimalizált algoritmus, elosztott spare. Hidd el a gyártók nagyon figyelik, hogyan muzsikálnak a tárolók bennük az SSD meghajtók. Telemetria adatokat szinte mindegyik tároló képes küldeni, ez a felhasználónak is jó, de a gyártó is profitál belőle. Konkrét eset, egyik másik tárolónál a gyártó egyszer csak bevezette a 3DWPD meghajtók mellett olcsóbban az 1DWPD meghajtókat, mivel az tapasztalták, nincs szükség a 3DWPD-re. Ne csak önmagába nézd a védelmet, hanem a komplett tárolót úgy alakították ki, hogy a rajta lévő adatok a lehető legnagyobb biztonságban legyenek. Amiket felsoroltam az mind ezt szolgálja, éppen ezért nem vonjuk ki a hs-t a képletből, meg semmi mást sem. Főleg a már hibázó meghajtó időbeni helyettesítése fontos, el sem jut a tároló addig, hogy számítson az egy meghajtó kiesése. Itt egy cikk a PowerStore all-flash tárolóról ami R5 és R6 analóg védelemmel rendelkezik.

https://infohub.delltechnologies.com/l/dell-powerstore-clustering-and-h…

Baromi sok mérnökóra van ezeknek a fejlesztésében.

Az R5 és R6 összehasonlításban az R6 írási büntetése nagyobb a dupla paritás miatt.

Mivel elegendő az R5 és R6 védelem, kellő teljesítményt és nagy megbízhatóságot nyújtanak és a flash média még mindig drága lenne R1 védelemmel. Már rég nem szokás tárolórendszereken R5+0 kialakítani, egyrészt nem is mindig lehet.

Az az érzésem nincs igazán tapasztalatod tárolóval és mindent az egy raid vezérlő, fizikai lemezek és az ezen kiakakított RAID tömb szemüvegen keresztül nézel.

Az az érzésem nincs igazán tapasztalatod tárolóval és mindent az egy raid vezérlő, fizikai lemezek és az ezen kiakakított RAID tömb szemüvegen keresztül nézel.

Ez pontosan így van! Sima szerverekben és NAS-ban DAS-ban lévő RAID tömbökkel van tapasztalatom "csak", gyártói nagy storage-dzsel nincs.

Éppen ezért nem is különböző gyártói tárolók képességeiről, hanem RAID5-6 tömbökről beszéltem. Viszont ha a "gyári" tároló megoldás egy RAID5-6-ra épülő, de azt jelentősen kibővító, hardver elvárásokkal rendelkező megoldásáról beszélünk, akkor viszont ne RAID5-6-ként tekintsünk rá ne úgy beszéljünk róla, ha nem "csak" egy RAID5-6, hanem jóval több.

Viszont ha ez már nem RAID5-6, akkor a gyárók miért így hivatkoznak rá? Miért nem azt írja, hogy 1 lemez hibatűrésű meg 2 lemez hibatűésű XYZ megoldás? Mert ugye az, hogy RAID5 meg 6 informatikában egy adott tartalommal bír (tudtommal), nem annyi jelent, hogy 1 vagy 2 lemez a hibatűrés.

A linkelt oldalon persze nem is RAID5-6-ról van szó, hanem egy 2 node-os HA clusterként működő, egyfajta dRAID megoldást felvonultató komplett integrált rendszerről, amit megint egy tök más dolog, nagyon messze van a RAID5-6-tól minde téren...

A RAID szintek jól definiáltak, a többi körülötte lévő szolgáltatás az adatbiztonságot növeli. Van olyan tároló a piacon ami jelenleg is képes a klasszikus RAID tömb kialakítására, más kérdés, hogy kb. senki nem használja, hanem inkább az újabb több lehetőséget biztosító védelmet mint az OP által említett PowerVault-ban lévő ADAPT. Más tárolónál meg nincs különösebb lehetőséged, csak kiválasztani, hogy 1 vagy 2 meghajtó kiesés ellen védjen. Kényelem és pongyolaság miatt hivatkozunk RAID5 és 6 védelemként, mert jó analógia. De ezek már nem a klasszikus RAID tömbök, amikor egész fizikai meghajtókból álltak.

Jól látod két vezérlőből álló HA, vagy akár aktív-aktív clusterek már a belépő szintű tárolók is. Ott még opció lehet az egy vezérlő. A midrange pedig kizárólag redundáns kontrollerekkel bír.

Hasonlóbol vagy pont ilyenből kb 200 darabunk van és az első darabok már 7 évesek, sokan egyszerre napi 6-60Tb-t nyelnek el 28-as csokorban és az összes hibátlan a mai napig. Egyszerűen picit használódnak.

Egyéb okon van egy csokor 8Tb samsung evo qlc is Dell szerverben. Smart, minden mukodik, sok egyben meg a tempó is nagyon az ára alapján meg too cheap to fail, van tartalék és nem lényeges a felhasználása annyira. 

Szerkesztve: 2024. 01. 26., p – 17:15

Egyrészt erre senki sem fog neked tudni válaszolni. Egy jóssal, időutazóval jobban jársz. :)

Hogy ontopic is legyek: Nézzünk egy naiv számolást. Legyen a 12 db diszk RAID-6-ban. Ez nettó 30 TB. Írjatok rá napi 100 GB-t a storage-ra. A RAID-6 miatt minden minden lemezt érint az írás. Azaz kb. 10 GB / lemez.
Ha a lemezek csak 4 TBW (4000 GBW) értékkel bírnak, akkor 400 napot bírnak a lemezek.
Ha csak 1 GB / lemez, akkor meg 4000 nap. 10 év.

Link egy kalkulátorhoz: https://wintelguy.com/dwpd-tbw-gbday-calc.pl

Az elírás, elszámolás joga fenntartva!

Hiba csak a TBW értékre figyelni. 100+1 dolog okozhat meghibásodást: leváló forrasztás, túlmelegedés, hibás fw, hibás ic stb.

Sok 100 darab Dell SSD-t felügyelet szerverben és storage-ben egyaránt és 8 év alatt 1 darabnak lett eddig smart problémája, többet nem tudok mondani. Messze az összes hdd fölött a megbízhatósága, extraként ha Dell szerverben van, akkor az OME-vel tömegesen tudod az FW-ket is karbantartani pár kattintással.

Az összes Dell sotrage ME5, ME4, MDxxxx egyaránt ugyanezt hozza. Hihetetlenül megbízhatóak és stabilak, az áruk a legjobb a piacon és az összes egyéb gyártóval ellentétben, ezekre is lehet 4 órás 7/24 garanciát vásárolni. Ezeket nem közvetlenül a Dell gyártja hanem az LSI vagyis akinél éppen van, most Broadcom. SAS és FC egyaránt 4 szervert tud redundánsan kiszolgálni, a saját raid megoldása működik. Gyárilag minden funkció engedélyezve, replica, snapshot, stb. Dedup és tömörítés szerencsére nincs bennük.