Sziasztok,
Dell ME5 storage + Proxmox VE környezetben futó iSCSI alapú storage rendszerünknél komoly I/O wait és teljesítmény-anomáliák jelentkeznek (időszakos extrém IO-wait, VM-ek megfagynak, ME5 GUI lefagy, olvasási teljesítmény szélsőségesen változó).
Firmware frissek, multipath konfig Dell ajánlás szerint, RAID10 + SSD read-cache kipróbálva, PBS mentés optimalizálva, PVE friss telepítéssel is tesztelve. A jelenség változó, de vissza-térően tapasztalható, és szeretnénk helyben szakértővel kielemezni.
Keresek olyan szakembert, aki jártas:
- Dell ME5 / ME-sorozatú storage-ban
- iSCSI konfigurációban (ALUA, multipath, tuning)
- Proxmox VE storage integrációban
- teljesítményproblémák diagnosztikájában (I/O, latency, fio, multipath-d)
Helyszín: Székesfehérvár
Olyan valakit keresek, aki személyesen, helyben is tud foglalkozni vele (nem csak távoli) és lehetőleg számlaképes.
Köszönöm!
- 1335 megtekintés
Hozzászólások
A diszk konfigurációt leírod? Csak arra gondoltam ha HDD-k vannak RAID10-ben és előtte read-cache SSD, akkor letörhet a teljesítmény ami nincs cacheben és HDD-ről kell olvasni. A szélsőségesen változó olvasási teljesítmény is erre utal, amikor nem cacheből jön az adat.
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
Switchen és direkt kapcsolaton is ugyanaz a helyzet?
- A hozzászóláshoz be kell jelentkezni
Ha írnál kicsit bővebben az architektúráról, akkor szerintem itt mi is segítenénk.
Pár apró kérdés részemről:
- Pontosan mi a ME5 storage konfigurációja? Modell, lemezek mérete és száma, SSD mérete stb.
- Van-e storage replikáció?
- Hogy áll a tiering? Mit mutat az ottani statisztika?
- Az SSD az RI vagy Mixed Use?
- Hogy néz ki a storage és host közötti hálózat?
- Mit lehet tudni a hostról? Hány VM fut rajta? Mekkora az overcommit rate?
- Használtok-e thin LUN-okat?
- Csak egy pár adott VM-nél jelentkezik a hiba vagy bármelyiknél?
- Mit mutat a storage statisztika az írott / olvasott adatok arányára nézve?
- A hozzászóláshoz be kell jelentkezni
Sziasztok
Köszönöm a választ megpróbálom összefoglalni jobban, de már őszintén nem hiszem hogy én meg tudom oldani....
A storage egy Dell ME5012, 10×4 TB SAS HDD RAID10-ben (512 k chunk), és van mellette egy 1,9 TB SSD read cache (RI típus). Cache policy: write-back + adaptive read-ahead. Nincs tiering vagy replikáció, csak egy pool és volume. A firmware a legfrissebb.
iSCSI-n keresztül csatlakozik, 2×25 Gbit/s round-robin ALUA multipath (Dell multipath.conf ajánlás alapján), jumbo frame aktív.
Direkt Dell dac kábelkapcsolattal (switch nélkül)
Host oldalon Proxmox VE 9 (kernel 6.14), LUN thin, kb. 15 VM fut rajta, 60–70 % overcommit mellett. A gond leginkább Proxmox Backup mentés közben jön elő, amikor az I/O wait kilő és a VM-ek megállnak. Írás 600–1000 MB/s, de olvasás néha beesik 200 MB/s alá (fio-val 13–15 MB/s is előfordult). SSD cache-szel a GUI lefagy, nélküle stabilabb, de időnként továbbra is vannak I/O delay.
- A hozzászóláshoz be kell jelentkezni
A multipath konfigot másold be ide kérlek, megy egy multipath -r kimentet is!
A round-robin hol van konfigurálva?
Ezt találtam ME5 ajánlásnak.
device {
vendor "DellEMC"
product "ME5"
path_grouping_policy group_by_prio
path_checker "tur"
hardware_handler "1 alua"
prio "alua"
failback immediate
rr_weight "uniform"
path_selector "service-time 0"
}
Nekem a 10x4TB NL-SAS meghajtó karcsúnak tűnik IO szempontból. Mondjuk a legjobb választás még a RAID10 volt, de a sizer így is csak alig több mint 1000 iops értéket ad erre a konfigurációra akárhogy csavargatom. Az 512k chunk méreten kívül próbáltatok mást? Igaz RAID10 esetén ez az ajánlás.
A megadott írás és olvasás értékek szerintem azzal magyarázhatók, hogy az írás elnyeli a write-back cache, az olvasás esetén pedig nem cacheből jön az adat hanem a diszkekről. Szerintem backup esetén nincs jelentősége a read-cache-nek pláne a read-aheadnek.
- A hozzászóláshoz be kell jelentkezni
Így látatlanban szerintem ez a rendszer alulméretezett. 10db HDD eleve nem sok, a 4T lemez gyaníthatóan ráadásul nem is 10k, hanem 7.2k. Ez IOPS-ban elég karcsú. VM-ek alá 7.2k lemezt tenni borítékolja a hasonló problémákat, ~15VM már elég jól tudja ráncigálni ide-oda, ahogy élik egyéni életüket, túlzott terhelésre sincs feltétlenül szükség (gondolj bele, 1 VM alá nem jut egy teljes lemez sem, az SSD ezen nyilván tud javítani, de az sem csoda).
Mindezt az is erősíti, hogy ezen leírásod alapján elsősorban mentéskor fordul elő a probléma.
Mennyi adatot ment a mentés? Ha 1,9T-nál többet, akkor könnyen kipucolódhat ez az ssd cache, a 7,2k lemez kínosan lassú lehet.
Az IOps értékeket is meg kellene nézni.
A VM-ek mit csinálnának, mikor belassúlnak? Írnának vagy olvasának? Milyen jellegű VM-ek?
- A hozzászóláshoz be kell jelentkezni
Mennyi adatot ment a mentés? Ha 1,9T-nál többet, akkor könnyen kipucolódhat ez az ssd cache, a 7,2k lemez kínosan lassú lehet.
Azert csak nem olyan buta a cache benne, hogy csak LRU-t tud.
- A hozzászóláshoz be kell jelentkezni
Nem ismerem a tárolót, de egy ilyen cache akkor sem képes csodára. A https://www.dell.com/support/manuals/en-us/powervault-me5012/me5_series_ag/about-ssd-read-cache?guid=guid-0d8db30b-27a2-41c9-bfc5-a437c0699c64 alapján számol valami statisztikát ("as a read cache for "hot" pages only"), azaz egy mentés hatására valószínűleg nem potyog ki minden a cache-ből, de tudni kellene, hogy milyen alkalmazások vannak és mi indokolta a 4T lemez méretet (miként történt a méretezés, mi tette lehetővé a spórolást több 10k lemezhez képest).
A másik gond az, hogy az SSD cache miatt kb mérhetetlen a rendszer: nehezen fogod tudni, hogy amit mérsz, az most honnan jön és micsoda. Talán hétvégén (ha akkor nyugi van) lehetne célzott terhelésekkel lőni, majd mentést futtatni, megint terhelés stb, simán rámegy rengeteg idő, lehet, hogy valamennyit lehet ezen tuningolni, de 90% fölötti esélyt mondok arra, hogy a végső konklúzió alulméretezés lesz. Ha lesz egyáltalán explicit konklúzió.
Én cache helyett lehet, hogy megpróbálnám inkább az automatikus rétegzést, például OS lemezeket és a kritikusabb adatokat gyorsabb réteghez kötve (tiering/affinity: https://www.dell.com/support/manuals/en-us/powervault-me5012/me5_series_ag/volume-tier-affinity?guid=guid-81370bfc-2eb8-4349-8391-3465e4e4f0d8&lang=en-us), de ehhez ismét tudni kellene, hogy milyen adatból mennyi van a látatlanban ~15T (+/- 2-3T) adatból.
- A hozzászóláshoz be kell jelentkezni
Qcow2-val a proxmox backup használja a dirty-bitmap-et, igy csak az előző backup óta keletkezett változásokat menti át , ha naponta keletkezik új 1,9tbájtnyi adat, akkor az durva ja, vagy LVM (gondolom azt használnak iSCSI-val) esetén nincs ilyen (vagy minden nap leállításra kerülnek a gépek, de azt kétlem?!), aztán mindig mindent be kell olvasni. De akkor meg lehet az egész mentési stratégiát át kellene alakítani, és pl. storage-en menteni közvetlenül, vagy nem LVM-et használni ha az van.
- A hozzászóláshoz be kell jelentkezni
Windows szerver tud olyant csinálni különösebb erőlködés nélkül, hogy a dirty bitmap naponta 80%-nyi változást mutat, mert valami háttérfolyamat hozzányúlkál minden blokkhoz. Ha meg be van kapcsolva a discard, és fut is a Windows-on a diszk optimalizálás (default hetente 1x minden diszkre aktív), akkor 100%-ot fog mutatni a változott blokkok száma, az a VM összes diszkjét teljes terjedelemben át fogja küldeni a PBS-nek.
Mi ki szoktuk kapcsolni az automata trim-et Windows-on (pláne, hogy ha van néhány TB virtuális diszk alatta, akkor az összes memóriát is megeszi ezalatt), és megnézünk minden folyamatot, ami non-stop lemezezik, hogy az tényleg kell-e.
- A hozzászóláshoz be kell jelentkezni
Ez alapján azt mondom, hogy az infra el lett tervezve (=elcseszve). Nem a 2x25 GbE lesz a hiba forrása.
Ahogy Krisztián is írta: Ez így nagyon kevés IOPS-t tud. 5*180 = 960. Ezt akár 1-2 VM is le tudja ültetni, ha nincs Proxmox oldalon szabályozva az IO per VM alapon.
Az az RI típusú SSD sok mindenre jó. Viszont cache-nek nagyon nem. Én ezért áttenném tierbe. Cache-nek csak MU vagy WI-t érdemes tenni. Lásd, egy jó kis összefoglaló a témában: https://www.serverstor.com/read-intensive-vs-write-intensive-vs-mixed-use-ssds-whats-the-difference/
Az 512k-n kívül én kipróbálnám a 4k-s chunk méretet is. Meg kell nézni, hogy a diskek milyenek hardveresen. Az alá nem érdemes menni - persze végezz mérést is erre vonatkozóan.
A talán legsúlyosabb hiba szerintem: az adatok ugyanazon a RAID tömbön / poolban vannak, mint ahová a mentés is történik.
Disk --> Storage controller --> iSCSI --> Host --> PBS VM --> Host - iSCSI --> Storage controller --> Disk
Én mindenképp különszedném a mentésre használt tömböt. Nem tudom, te látod, hogy mekkora terület kell a mentéshez. 6x lenne a normál adatoknak, 4x a mentéshez. Mindkettő RAID10-ben. Így a mentés nem fogja meg az adat tömböt. Az SSD-t az adat tömbhöz kösd be tieringbe, ne a mentéshez.
Összefoglalva amiket én tennék:
- Limitálnám a VM-ek IOPS-t.
- Áttenném az SSD-t tieringbe.
- Szétszedném a RAID tömböt 2-re: adatok, mentés.
- Megvizsgálnám a működést 4k-s chunk mérettel is. Különösen a PBS esetén.
- A hozzászóláshoz be kell jelentkezni
A talán legsúlyosabb hiba szerintem: az adatok ugyanazon a RAID tömbön / poolban vannak, mint ahová a mentés is történik
+sok A PBX az másik fizikai gépen fut (akkor tudsz további lemezt tenni bele/rá) - vagy ezen egy VM-ként? Egy 4xLFF használt servert már "gombokért" kapsz ami PBS-nek tökéletes lehet, már csak az a kérdés, h mennyi tárhelyet szeretnél mentésre, mert 10TB körüli lemezek olyan 100k körül lesznek.
- A hozzászóláshoz be kell jelentkezni
Én sehol nem látom azt, hogy a mentések ugyanide mennének. Ha mégis én értettem félre valamit, akkor sem az a megoldás, hogy másik tömbre mennek, hanem konkrétan másik tárolóra/szerverre kellene tenni (persze ismerni kellene a mentési architektúrát, de az esetek túlnyomó részében a mentések a produktív tártól eltérő helyre menjenek).
Az IOps korlátozás könnyen kontraproduktív lehet.
A chunk stb paraméterekkel lehet játszani, de én nem hiszem, hogy megváltást okozna + tipikusan elég bonyolult/időigényes ezzel játszani.
Szerintem egyszerűen az történik, hogy kevés a cache, a produktív adatok annál nagyobb méretben vannak elszórva, és mikor valami nincs cache-ben, akkor csak a nagyon lassú forgó lemezeken érhető el, ami óhatatlanul lassú lesz (ráadásul ez meglehetősen nehezen mérhető ki). A mentés úgy jön képbe, hogy vagy kiszórja az adatokat a cache-ből (esetleg hozzájárul a kiszóráshoz, mert úgy jön ki a statisztika), vagy egyszerűen azért, mert mikor mentés is fut, akkor a forgó lemezek eleve terheltek, így az onnan elérendő adatok még lassabban lesznek elérhetők.
A tieringgel egyetértek, lásd feljebb (OS + teljesítmény kritikus adatok odaragasztása). Ha ez nem hoz megoldást, akkor újra kell tervezni a rendszert. Több SSD és/vagy több+gyorsabb+kisebb HDD, de ezt ennyi információ alapján képtelenség meghatározni.
- A hozzászóláshoz be kell jelentkezni
Egy fiot ki tudsz próbálni: (mármint a topiknyitó)
fio --name=ssdtest --filename=testfile1 --size=10M --bs=4k --iodepth=1 --rw=randwrite --randrepeat=1 --sync=1 --fsync=1|grep WRITE
ha 400-500 kB/ sec jön ki, akkor amit elöttem írtak. iops alacsony. Illetve ha nem titok megoszthatod mennyi lett. Ez csak egy 10 megás teszt, pár másodperc.
- A hozzászóláshoz be kell jelentkezni
A tisztán HDD alapú tömb tuti nagyon kevés erre a terhelésre. Az 512k chunk méret sem biztos, hogy ideális ilyen lassú tárolónál, és az RI SSD kb. semmire sem jó szerver környezetben (az boot meghajtónak való meg webszerver alá statikus tartalomnak), nem még bármilyen cache-nek storage-ba, sokszor rosszabb ilyennel egy kötet, mint nélküle.
Az írás-olvasási adaton látszik, hogy nagy blokkmérettel, szekvenciális művelettel nézed/mérted. A VM terhelés nem ilyen, hanem kis blokkmérettel, random írás-olvasás. Ha futtatsz egy FIO-t random rw módban, 16k blokkmérettel, az így kaptt adat inkább lesz jellemző a VM futtatásra. Szerintem elképesztően gyászos számok lesznek RAID10 ide vagy oda, én kb. 500 IOPS-t és ehhez ~8 MB/s sebsséget tippelek. Ez vicc VM-ek alá. Szóval én megfordítanám, ez csoda hogy nem tűnik fel a VM-ek teljesítményén mentés nélkül, normál futás közben...
A PBS terhelés sem szekvenciális, hanem nagyon is random, ugyanis kicsi, ~4 MB-os blokkokat használ, milliószámra - ha a PBS is erre a tömbre ment.
Egyébként ha a Proxmox-ba tesztek egy SSD pool-t (nem kell nagy, nem feltétlen kell redundáns sem, és legyen thin provision), és azt megadjátok a mentésnél fleece-nek, akkor oda gyorstárazza a mentendő dolgokat a vzdump, így kevesebb ideig lesz nagy terhelés a VM diszkeken mentés közben.
- A hozzászóláshoz be kell jelentkezni
Ha berakna ebbe a gépbe 2 db enterprise ssd-t raid1-ben kb az lenne a legolcsóbb megoldás.
- A hozzászóláshoz be kell jelentkezni
az RI SSD kb. semmire sem jó szerver környezetben (az boot meghajtónak való meg webszerver alá statikus tartalomnak), nem még bármilyen cache-nek storage-ba, sokszor rosszabb ilyennel egy kötet, mint nélküle.
Én ezt túlságosan erős állításnak tartom, pláne úgy, hogy "mögötte" 7.2k lemezek vannak (én még nem láttam 10k 4T lemezt, a tároló adatlapján sincsen), nem is túl sok (konkrétan kevés, VM-enként 1db lemez sem jut).
Persze, jobb egy MLC SSD, de ki is kell fizetni, gazdagabb/nagyobb helyeken is megszámolják, hogy 10-20T-t miből raknak össze. Tekintve, hogy semmi információ nincs az adatokról, nehéz ez ügyben okosat mondani, számomra az a biztos, hogy a 7,2k lemezek nagyon jó eséllyel hozzájárulnak a problémához.
- A hozzászóláshoz be kell jelentkezni
Az RI SSD-kben nincs PLP, így (részben emiatt, részben az RI-ség miatt) csapnivaló a random írás IOPS SSD-s mércével nézve. Mi is kísérleteztünk enterprise, de RI SSD-kkel néhány éve ügyfél virtualicció szerverbe, hogy olcsóbb legyen, de eléggé vegyes, inkább rossz tapasztalataink lettek teljesítmény terén.
Ezért mi MU SSD-ket teszünk szerverbe és NAS-ba VM tárolónak és cache-nek. Persze ahol sok adat van (főleg fájlszerver funkció, nem SQL alá), oda teszünk HDD-t is a sok, nem túl IOPS igényes adatnak, nem tisztán SSD-sek a szerverek. Mi jellemzően Kingston DC600M-et veszünk az utóbbi időben, régebben Samsumg PM sorozatot részesítettük előnyben. 1-2-4 TB méretben ezek azért kifizethetők egy szerverbe 2-4 darab. Mellé mehet valamilyen Exos diszk tárkapacitásnak, és már kész is költséghatékényan egy aránylag gyors Proxmox szerver.
Storage-dzsel pont azért nem próbálkozunk a legtöbb ügyfélnél (mi kisebb cégeknek, hivataloknak dolgozunk jellemzően), mert azok általában nagyon háklisak a betett meghajtókra (szeretnek márkahűek lenni, és egy Dell MU SSD arcpirító árban van), inkább csinálunk Ceph-fel osztott tárkapacitást, ha ilyen igény merülne fel. Abból is SSD és HDD pool-okat egyaránt az adattól függően.
- A hozzászóláshoz be kell jelentkezni
Szerintem erdemes korulnezni a TCP Delayed Ack es az iSCSI Queue Depth beallitasok korul.
- A hozzászóláshoz be kell jelentkezni
PowerVault ME50xx
Latest code: 1.2.1.5 August 2025
Recommended code: 1.2.0.3 May 2024
Minimum supported code: 1.2.0.2 Oct 2023
- A hozzászóláshoz be kell jelentkezni
proxmox backup jobok szervezéséről sem tudunk semmit.
célszerű úgy szervezni hogy ne zavarjon:
- csinálni mondjuk egy napi_mentes jobot és abba belerakni az összes vm-et amit mentenél
- csinálni másik akármilyen mentéseket, ami akkor fut miután az első már várhatóan végzett
A lényeg az hogy egyszerre lehetőleg egy (v kevés) job fusson, az nem fogja agyonvágni a diszket.
Az inkrementális mentés miatt ez se fog drámaian sokáig tartani.
Amit még lehet: pbs inbound sávszélességet limitálni, de hogy ezt hol és hogyan - na ahhoz konkrétan látni kellene az egész infrát.
- A hozzászóláshoz be kell jelentkezni
Sziasztok, Farkas Márk vagyok, Örkényi Petivel dolgozunk együtt a dell emc projekten. Olvastam a válaszaitokat, a teljesség igénye nélkül próbálok válaszolni.
- a Proxmox backup egyértelműen nagy latency-t okoz, 30-35% iowaitet nem ritkán. 15-20 perces inkrementális snapshot mentések vannak, tehát folyamatosan fut. Nem napi egy vagy ilyesmi, üzemeltetési szempontból nekünk nagyon fontos a legalább fél óránkénti mentés. A háttérben a backup szerver napi 1x rendezi a mentéseket. Ha korlátozzuk a backup szálakat és erőforrást jobb a szitu. A problémánk az hogy ha natívan fut valamelyik dell szerver merevlemezein a VM és úgy mentjük ugyan így, nincs iowait probléma nincs VM lagg. A natív storage megoldáskor ráadásul nem SAS merevmelezekkel dolgoziunk hanem sima 4TB WD PURPLE / RED vinyókkal, amelyek "lassúak", még sincs iowait gond csak ha EMC-n lévő VM-et mentünk.
- A mentések alkalmanként kb 5-15GB méretet mentenek le. Ha újra fut tisztán akkor 500-800GB méretűek a VM diskek, ilyenkor megértem az iowaitet, de utána nem.
- Eredeti DELL SAS 10GBPS 3.5" merevlemezeket használunk! Eredeti DELL SSD -t használunk cache-ra.
- Próbáltunk mindent, próbáltunk korlátozni VM iops-t picit jobb de nem jó. Van olyan VM amelyik csak DB postgresql, van olyan vm 3-4 ami windows 11 / windows szerver. A többi ubuntu server.
- A roundrobint debian multipath szinten próbáltuk. Nélküle a csúcs sebesség alacsonyabb, vele a csúcs sebesség 1200MB/S írás kb. Ami hibátkannak tartok nekünk bőven elég. Viszont tényleg itt kizárólag ilyen "LAGG" problémák vannak, elindul egy mentés és azonnal "megfagy" 1-1 vm. Ami főleg ADATBÁZIS műveletnél kínos... :D
Én azt javaslom akinek van konkrét tapasztalata, Pénzért, nem ingyen várjuk el, és Székesfehérvár megközelíthető távolságban van neki, kérem telefonon / emailen keressen meg minket, egyeztessünk egy napot amikor kijön megnézi, kifizetjük a kiszállását, kifizetjük az idejét, biztosítunk végtelen Kávét és Pizzát :))) és tudunk Tesztelni játszani úgymond, az egész DELL EMC le van resetelve jelenleg. Megnézhetjük elölről együtt, aki érez magában affinitást és van ideje foglalkozni vele és tudja mit csinál kérem jelentkezzen.
06 30 241 7826
köszönjük és reméljük találunk alkalmas embert
üdv Márk
- A hozzászóláshoz be kell jelentkezni
Amugy erre nincs ilyen jellegu support az EMC/Dell-tol? Vagy azt aranyaron merik?
Egyebkent egyre nyilvanvalobb, hogy a 7.2krpm-es diszkek okozzak a lassusagot. Ezek ennyit birnak sajnos.
- A hozzászóláshoz be kell jelentkezni
Még egyszer leírom, ha natívan nézem R720 dellen, Raid6 - Raid10 (mindkettőt kipróbáltuk), WD 4TB Purple /RED 5400RPM vinyókkal, JOBB mint a Dell SAS vinyókkal. Ott a csúcs sebességünk 500-550MB/S még sincs iowait és lagg. Erre esetleg kapunk ötletet választ? :)
- A hozzászóláshoz be kell jelentkezni
Nem a throughput (MB/s) az erdekes, hanem a random (nem szekvencialis) IO/s. Egy ilyen HDD csak 100-200 kozotti IOps-t tud. 10 disk eseten is meg csak 1000-2000 IOps-rol beszelunk (olvasas eseten). Egy desktop SSD kenterbe vagja az egesz kocerajt.
Nativan is 15 VM-mel terhelitek oket?
- A hozzászóláshoz be kell jelentkezni
Igen, most az R720 RAID6 ján (szintén 6-8 lemezből áll wd pruple 5400), rajta van az ÖSSZES vm, lagg nélkül fut minden :)
Ha ugyan ezt áttesszük STG raid6/10 SAS dell-re akkor iowait lagg tenger van.
- A hozzászóláshoz be kell jelentkezni
raid6 na az a tipikus oltári kibaszás mindennel.
nézd már meg hogy egy darab írás (a backup ugye írás) az mennyi plusz olvasást és checksumot eredményez. elméleti szinten.
ennyivel már oszthatod is tovább a rendelkezésre álló iops-t. Marad 15 iops-ed? Csodálkozol?
- A hozzászóláshoz be kell jelentkezni
De azt allitja, hogy lokalban (gondolom ez lokalis RAID vezerlot takar) kielegito meg RAID6-tal is a sebesseg.
- A hozzászóláshoz be kell jelentkezni
ez meg mindig nem mondja meg hogy ugyanaz a config egyik helyen jo, masik helyen szar...
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!
- A hozzászóláshoz be kell jelentkezni
Szinte biztos vagyok abban hogy csak ő gondolja "ugyanannak" a konfigot. A gép nem.
- A hozzászóláshoz be kell jelentkezni
Még egyszer leírjuk hogy IOPS-nek hívják ami miatt a bajod van. Meg latency-nek.
Ha "elraksz" egy disket storage-ba akkor a natív latencyhez még az a késleltetés is hozzájön amíg a géptől a storage-ig elér a kérés meg vissza.
Arról nem is beszélve amit a "storage-ban" eltölt.
Szóval egy ilyen diszk alapból tud mondjuk 100-120 iops-t. Ha 4k-s írások vannak akkor ez 400kbyte/sec.
A 100 iops ugye átlagban 10msec latency-t ad neked. Ehhez adjál még mondjuk kettőt a storage miatt (és optimista voltam) máris ott tartasz hogy 12ms. Ott tartasz hogy 83 IOPS az elméleti maximumod.
Mire elég ez?
- A hozzászóláshoz be kell jelentkezni
Leirták előttem , utánam. Jó átersztő képesség, gyenge iops. ISCSI , minden I/O műveletet TCP/IP csomagokba kell „becsomagolni”, majd a hálózaton továbbítani. Purple-nél meg nincs hálózati réteg. Egy aszatli ssd , a leggyengébb is jobb lesz mint a Dell.
Próbáljátok már kia a fio-t amit már irtam, illetve hogy mennyi lett : (a testfile1 file a dell-en jöjjön létre):
fio --name=dell test --filename=testfile1 --size=10M --bs=4k --iodepth=1 --rw=randwrite --randrepeat=1 --sync=1 --fsync=1|grep WRITE
- A hozzászóláshoz be kell jelentkezni
kipróbáltam pár diszken:
nvme ssd single (eléggé dolgozik):
root@dell:/mpool# fio --name="dell test" --filename=testfile1 --size=10M --bs=4k --iodepth=1 --rw=randwrite --randrepeat=1 --sync=1 --fsync=1|grep WRITE
WRITE: bw=23.3MiB/s (24.4MB/s), 23.3MiB/s-23.3MiB/s (24.4MB/s-24.4MB/s), io=10.0MiB (10.5MB), run=430-430msec
15 k sas raid 1 (2) nem csinál semmit:
root@dell:/rpool# fio --name="dell test" --filename=testfile1 --size=10M --bs=4k --iodepth=1 --rw=randwrite --randrepeat=1 --sync=1 --fsync=1|grep WRITE
WRITE: bw=915KiB/s (937kB/s), 915KiB/s-915KiB/s (937kB/s-937kB/s), io=10.0MiB (10.5MB), run=11191-11191msec
régi intel enterprise ssd raid1 (2) nem csinál semmit:
root@dell:/spool# fio --name="dell test" --filename=testfile1 --size=10M --bs=4k --iodepth=1 --rw=randwrite --randrepeat=1 --sync=1 --fsync=1|grep WRITE
WRITE: bw=9517KiB/s (9745kB/s), 9517KiB/s-9517KiB/s (9745kB/s-9745kB/s), io=10.0MiB (10.5MB), run=1076-1076msec
synology nas nfs (benne nvme ssd raid1 write cache, idle):
root@dell:/mnt/pve/proxmoxbk# fio --name="dell test" --filename=testfile1 --size=10M --bs=4k --iodepth=1 --rw=randwrite --randrepeat=1 --sync=1 --fsync=1|grep WRITE
WRITE: bw=10.4MiB/s (11.0MB/s), 10.4MiB/s-10.4MiB/s (11.0MB/s-11.0MB/s), io=10.0MiB (10.5MB), run=957-957msec
Elég pici ez a tesztfile de asszem látszik a diszkek hátránya így is. Pedig lokál diszkek.
A gépben levő NVME SSD-t pedig a PCIe busz sávszél korlátozza, az SSD többet tudna. (Dell R430, jó régi)
- A hozzászóláshoz be kell jelentkezni
iostat -x 10 és sar -u 10 meg esetleg a fio, ezzel képbe tudsz kerülni, Ha iostat %util mondjuk 90 % , HDD await 20 vagy fölötte , akkor max.-on vagy.
Kérdezőkön mondjuk ez nem segit.
- A hozzászóláshoz be kell jelentkezni
Mondjuk az iSCSI-nak nem kellene erezheto overheadnek lennie ilyen terheles mellett. Foleg ha az MTU=9000.
Valoszinu lesz ott vmi mas baj is, mondjuk TCP Delayed ACK. Regebben szivtunk miatta EMC storage kapcsan.
- A hozzászóláshoz be kell jelentkezni
jumbo frame igen, én is arra gyanakszom hogy tcp gond, direktben van összedugva 25G optikán sw nélkül.
- A hozzászóláshoz be kell jelentkezni
Én a fenti eredményhez semmit se tuningoltam se a proxmoxon se a synology-n. 2x1G ethernettel vannak összekötve switchen keresztül. Szerintem jumbo frame sincs.
- A hozzászóláshoz be kell jelentkezni
Meg az jutott eszembe, hogy meg kellene nezni a linux kernel logjaban, hogy az iSCSI-nak van-e vmi baja (lehet hogy gyakran reconnectel es az okozza a "laggolast").
- A hozzászóláshoz be kell jelentkezni
- Aszinkron írás: főleg sávszélesség overhead (~10–12%).
- Szinkron írás: overhead + round‑trip latency → akár 25–30% teljesítményvesztés IOPS-ban.
- A hozzászóláshoz be kell jelentkezni
- A mentések alkalmanként kb 5-15GB méretet mentenek le. Ha újra fut tisztán akkor 500-800GB méretűek a VM diskek, ilyenkor megértem az iowaitet, de utána nem.
Ez egy hibás állítás. Egy ekkora "VM inkrementális mentés" is bőven előhozza ugyanazokat a problémákat mint egy full mentés.
- A hozzászóláshoz be kell jelentkezni
Ha jól értem, akkor ha minden VM-et átmigráltok helyi RAID6-ra (WD PURPLE/RED), akkor jól működik, ha a tárolón van, akkor nem működik jól? Ugyanazok a VM-ek itt is, ott is, egyszerűen átmozgatva egyik adattáról a másikra?
Helyileg milyen fájlrendszer van, milyen a fájlrendszer az iSCSI-n?
Azt próbáltátok, hogy kikapcsoljátok az SSD cache-t a tárolón? Ha helyi RAID6-on jól megy, akkor elvileg anélkül is elviselhetőnek kellene lennie a tárolón, a mérés is konzisztensebb tud lenni, mert az SSD biztosan nem torzít. Tárolón próbáltátok RAID6-tal? (biztos nem lenne gyorsabb, de kérdés, hogy lassabb-e, jobban hasonlítható a helyi felálláshoz)
A "DELL SAS 10GBPS 3.5"" és "MB/S" jellegű írások alapján szerintem simán elmentek valami mellett, fogalmam sincs, mi lehet a Dell SAS 10GPS lemez. A merevlemezeknek tipikusan van egy csatolójuk, ami lehet például SAS, annak van egy sávszélessége, de biztosan nem 10GBPS (inkább 3/6/12), van egy fordulatszámuk, jelen esetben elvileg 7200, jobb esetben kis valószínűséggel 10000, de ahogy néztem a tároló adatlapját ez kb kizárt, így nem tudom, honnan jöhet ez a 10GBPS-es szám.
A sok "MB/S" érték pedig szintén félrevezető, mert teljesítmény esetén IOps+blokkméret és késleltetés számok mondanak valamit. A "MB/S" nyilván összefügg a többivel, ha kicsi, akkor lehet rossz, de kis blokkméret esetén nem fogsz túl nagy számot kapni. Például az 1200MB/S sebességet milyen műveletekre kaptad? (tippre biztosan nem 1k véletlen írásra)
Arról sem írtál, hogy a lokális lemezek milyen RAID vezérlőre csatlakoznak, van-e valami gyorsítótára? Utóbbi nagyon sokat tud dobni a teljesítmény, hiánya nagyon fájó tud lenni főleg ennyi VM esetén + lásd fájlrendszer kérdést.
A tárolóval mi a célotok egyébként, miért terveztétek iSCSI-re tenni?
- A hozzászóláshoz be kell jelentkezni
Kérdező személyes segitséget keres, nem annyira tanácsokat, de egy két használható ötlet talán elhangzott.
Ez egy enterprise storage, elvileg akár több száz alacsony terhelésű vm elmehet rajta.
De akár egy -két nagy iops igényű adatbázis leültetheti a tárolót , vagy hirtelen nagy random write , iops igény , hdd lemezekkel.
Ilyenkor akár nálam is előjön az az axioma,hogy drága hardver , enterprise minőség, tehát a beállítás a rossz.
Ami aztán vagy így van, vagy nem.
Össze lehetne hasonlítani a az ME5 -öt a purple lemezekkel , amikor dell laggol egy sima iostat paranccsal,
a hdd util és az await értékek összehasonlitása alapján valamit csak látni kellene, a referencia purple-től miben tér el.
- A hozzászóláshoz be kell jelentkezni
Érdekes probléma de nem látom hogy lenne olyan megoldása ami mindenkinek meg tudná érni. Nem véletlenül nem repült még rá senki.
- A hozzászóláshoz be kell jelentkezni
Nem világos, mit is akartál ezzel mondani. Értem én, hogy személyes segítséget keres, de az ember megpróbál neki segíteni, ha már személyesen jelenleg nem is tud. Ő is jobban jár, ha már itt jobban körülírja a helyzetet, nem ott a helyszínen megy vele az idő.
Ez egy enterprise storage, elvileg akár több száz alacsony terhelésű vm elmehet rajta.
De jó, hogy írod, én azt hittem a székesfehérvári bolha piacon rakta össze 3-4 árustól.
Attól, hogy vállalati tároló, még nem feltétlenül fog elmenni rajta több száz alacsony (?) terhelésű virtuális gép. Néhány 7.2k lemezre néhány száz VM-et tipikusan nem egészséges tenni, SSD gyorsítással sem.
Attól, hogy vállalati tároló, még lehet vacak, sőt, az ár sem feltétlenül jelent minőséget. Kérdés, hogy a kompatibilitási listán szerepel-e adott verziójú Proxmox vagy sem. Ez elvileg egy "ALUA tároló", kérdés, hogy ezt figyelembe vették-e, mert még az is lehet, hogy nem optimalizált útvonalon mennek a kérések.
Szóval vannak kérdések, amiket akkor is jobb előre tisztázni, ha helyszínre megy az ember. Ez egy kockázatos tanácsadás, aminek könnyen lehet rossz szájíz a vége (értsd: nem sikerül érdemit megállapítani).
- A hozzászóláshoz be kell jelentkezni
Szia, igen pontosan így van. Ha az R720 natív Raid6jára teszünk rá minden VM-et NFS megosztással 10G SFP+ switchelt hálózaton akkor hibátlan minden. Ott 5400rpm-es WD purple lemezek vannak. Ha az ISCSI Dell EMC-re teszünk (5.5millió+ÁFA volt a konfig egyébként), akkor iowait van.
Pontosan jól mondod, használunk dell SSD-t cache-re. Ha kivesszük a cache-t a tömbből akkor fura módon JOBB a teljesítmény az ISCSI -n. A Disk írással sosincs gond, ezt is tegyük hozzá. 1200MB/S körül írünk, és a kis 4M blokkokat is 400-450MB körül. Az olvasás a lasú. pedig az SSD elvileg READ CACHE-re van állítva.
A dell r720 esetében sima gyári raid kártyát használunk 1G cache-el.
Szóval ráadásul úgy működik hibátlanul az R720 esetében, hogy a natív disk megvan osztva NFS-el, mennek a disk move-k és a backuppok és a VM-ek és továbbra sincs 2-3% iowaitnél több.
Még volt olyan kérdése másnak, a Dell szerverekben egyesével 256G ram van, a 640-ben több. A VM-ek kb 40%-ot használnsak egységesen.
Azért van a Dell EMC mert szeretnénk a 3 szerverrel Proxmox HA-t megvalósítani ami kész is jó is megy is, de a Dell EMC random kifagy. Fontos adalék, amikor az iodwait felszökik 50%-ra akkor a DELL EMC IDRAC -ja sem elérhető. Egyik vezérlőn sem, se A se B. A vezérlők és a Szervereink direkt 25G linkenvannak összedugva, nincs SW.
Köszönöm a válaszod, ha van ötlet várjuk szívesen.
Esetleg valakinek még valami konstruktív hozzászólás? Aki nem olvassa el a kérdést kérem ne kommenteljen nincs időm végig olvasni 30 darab neharagudjatok a szóért, F*szságról szóló kommentet :))
üdv
Márk
- A hozzászóláshoz be kell jelentkezni
Hát, most is leírtál egy csomó mindent amit eddig nem. De ez is félinformáció legjobb esetben.
Úgy néz ki sikerült egy jó komplex ámde összességében mégse jó rendszert összerakni.
Az az 1G cache controller például egy klasszik hiba.
Az az érzésem hogy ha odamennék és javasolnék, nem hinnétek nekem.
A felesleges konfliktus meg nem hiányzik.
- A hozzászóláshoz be kell jelentkezni
Rendben nem konfliktust generálni szeretnék viszont kezdem elveszíteni a hitem... hogy valaha valaki tud még olvasni ebben az országban. Azt írtam le hogy a NATÍV Raid6 mögött van egy 1G cache raid vezérlő.
A Dell EMC ISCSI-megoldásban 2TB dell SSD van betéve. Kérlek szépen olvasd el amit írok ALAPOSAN! Mérnöki szemléletmód...
szerk: és még az 1G cachelt raid is tökéletesen működik.
üdv,
- A hozzászóláshoz be kell jelentkezni
Nem olvastam félre. Attól hogy "működik" még egy klasszik hiba.
fio méréseket szeretnék látni, mérnöki módon leírva a környezetet is.
a hostról meg kéne "fio-zni" az emc-t is meg a lokál tömböket is.
device config, fs config, minden részlet számíthat.
össze lehet hasonlítani az itthoni nulla forintos retkeimmel.
- A hozzászóláshoz be kell jelentkezni
Miért hiba 1G cache egy RAID vezérlőbe? Ég és föld tud lenni a különbség.
- A hozzászóláshoz be kell jelentkezni
bár ezt nem írta de őszintén remélem hogy zfs van a proxmoxos natív diszkeken. zfs alá diszkeket meg jbod-ként csatolunk, akkor nincs szerepe a raid cache-nek, ki kell kapcsolni.
- A hozzászóláshoz be kell jelentkezni
ja értem. proxmox -> másik linux (nfs server) -> natív diszk
- A hozzászóláshoz be kell jelentkezni
Ha már számon kéred a mérnöki szemléletmódot (amit egyébként gabrielakos és a többiek is végig tolnak, merthogy definiálnak szükséges méréseket és várják az eredményüket a további segítséghez, valamint kérdéseket tesznek fel az architektúra eddig "titkos" (nem fontosnak gondolt) részeiről), akkor eddig miért nem sikerült senkinek leírnia, milyen és mennyi PVE hoszt kapcsolódik a Dell-hez és milyen módon vannak ezek összekötözgetve, ha nincs storage oldalon switch, csak direkt kábelezés?
Persze össze lehet csipegetni (gyakorlatilag elszólásokból), hogy van egy R720, egy R640 meg még legalább egy (vagy több) valami más. De, hogy pl. az R720-on helyben van használva a HDD-s RAID6 tömb, vagy az R720 egy PVE szerver és másik NFS szerveren vannak a VM diszkek, és azon van ez a RAID6 tömb, eddig nekem nem derült ki.
Azt nem tudjuk, hogy Proxmox alatt a 25G interfészeket teszteltétek-e más módon, hogy azok egyébként nem-storage felhasználás esetén jól működnek-e valóban? Próbáltátok-e 1G és 10G összekötéssel, hogy a sávszéltől eltekintve véletlen nem javul-e a helyzet (mondjuk 10G-n) a 25G-hez képest?
Bevallom, én azt sem tudom elképzelni, hogy a 15 VM egy lokális, 5400 rpm-es HDD-kből álló RAID6 tömbön jól futna... Annak az írási IOPS képessége valahol 200 körül van. Pláne, hogy van köztük DB szerver is, ami önmagában elég IO igényes. Persze lehet a storage verzióhoz képest már ez is jó, de abszolut értékben jó-e, hát...
Nagyon érdekes a probléma, érdekel a megoldás, szeretnék is segíteni ha tudok, de úgy kell kiharapófogózni minden kis infót belőletek...
- A hozzászóláshoz be kell jelentkezni
Fontos adalék, amikor az iodwait felszökik 50%-ra akkor a DELL EMC IDRAC -ja sem elérhető.
Ha jól olvastam, akkor ezt eddig nem említetted. Ez számomra azt jelenti, hogy elfogy a storage CPU-ja. Ha nagyon sok lemez, nagyon sok host és nagyon sok funkció van bekapcsolva (dedup, thin provision stb.) egyszerre, akkor láttam már ilyet élőben.
Én megkockáztatnám, hogy valami fw bugba futottatok bele (velem volt már ilyen kb. 12 éve). Ahhoz meg EMC partner vagy maga az EMC kellene.
Nem véletlenül írtam, hogy az SSD-t tegyétek külön tierre és legyen bekapcsolva az automatikus tiering. A régi iskola szerint nem ajánlott különböző lemezeket (NLSAS, SAS, SSD) azonos tömbbe tenni. Azonos poolban lehetnek.
Az SSD csak akkor segít bármit is, ha azon van az olvasott adat vagy oda tud írni a host. Amikor a storage cache elfogy, akkor jön a nyers diszk teljesítmény.
Amit még én látok különbséget: az R720-nál az iSCSI hálózat switchelt, míg az ME5012 esetén nem. Meg tudnátok azt próbálni, hogy az ME5012-t ugyanúgy 2 darab különálló switchen keresztül kötitek rá a hostra? Nem baj, ha csak 10 GbE és nem 25 GbE.
- A hozzászóláshoz be kell jelentkezni
Sehol nem írta, hogy egy tömbben különböző típusú lemezek lennének. Van egy RAID10 tömb 7,2k lemezekkel és van egy cache SSD-kből.
- A hozzászóláshoz be kell jelentkezni
Jó lenne egy komplett rendszerleírás, ábrával, az NFS most megint új információ. Én azt hittem a PVE-nek helyben van a RAID6 WD lemezekkel.
Akkor most hány vas van összesen? Van a Dell tároló, van egy Dell R720 szerver, amin - gondolom - Linux megoszt egy tárterületet NFS-sel a Proxmox(ok?) számára. Ezen Dell R720 alatt vannak a WD lassú lemezek RAID6 tömbben, gondolom PERC vezérlő van az 1GB cache-sel. Nem feltétlenül túlzottan lényeges, de az NFS mögött milyen fájlrendszer van?
Hány Proxmox (PVE) szerver van?
iSCSI-n milyen fájlrendszer van? Miként van használva? Most hány PVE csatlakozik NFS-re, iSCSI-re?
Amennyire én tudom, iSCSI alatt nem igazán jól megoldott Proxmox alatt a több PVE általi párhuzamos elérés, most V9-ben van valami újítás, illetve van ZFS over iSCSI, mi a tervetek? (többek között én azért sem vállalkoznék helyszíni megjelenésre, mert egyelőre nincs kellő Proxmox tapasztalat)
Van egy érzésem, hogy itt még vannak nem mellékes információk a háttérben, hiába próbálok figyelmes lenni, sok részlet nem derült ki.
Az például biztos, hogy optimalizált útvonalon éritek el az iSCSI területet? Ha több PVE van, miként vannak a portbekötések? Egy PVE-nek hány kapcsolata van a tárolóval? Például ha kettő, mindkét vezérlőre 1-1, valamint RR van, akkor az RR-ből az egyik útvonal biztosan nem optimalizált lesz.
- A hozzászóláshoz be kell jelentkezni
Dell szerverekben egyesével 256G ram van,
Azert ez sokat ad a rendszerhez. Jo par éve "sima" szervereket használunk NFS storage-nak. Van tobbfele konfig, sima HW raid60 + debian + nfs-kernel szerver van, openmediavault + ZFS stb. A lényeg a sok ram, az ki tudja simitani a dolgokat ...
Fedora 43, Thinkpad x280
- A hozzászóláshoz be kell jelentkezni
Ok, látszik ezen a mini teszten is nativ sas: 937kB/s iops terhelésnél (150-200) , iscsi nél még rájön a hálózati réteg, ami már lehet hogy nagyon levesz. Az ssd-kkel nincsenek egy univerzumban. HDD-kkel én olyan 100 ra tippelem a dell-t.
- A hozzászóláshoz be kell jelentkezni
ezek az én 15k-s enterprise sas diszkjeim, "ahhoz képest" nagyon más géposztály (mint a 7.2-es vagy 5.4-es nlsas vagy sata nas diszkek)
enterprise ssd már más naprendszer, nvme meg másik univerzum
- A hozzászóláshoz be kell jelentkezni
Na most találgatások helyett nem lenne célszerűbb megcsinálni két fiot, egyet a dell lemezekre egyet meg a nativ purple lemezekre. Ha másre nem, összehasonlitásra jó.
Vagy elmélkedhetünk , hogy szopik e a kacsa ?
- A hozzászóláshoz be kell jelentkezni
RAM ról még nem beszéltünk. Mennyi ram van a gépben és ebből mennyi jut a VM-eknek / mennyi marad filesystem cache-nek?
Nálam a ZFS eléggé "szárnyakat kapott" amikor kapott +64GB-t a szerver. Most 160GB van benne, swap nincs.
- A hozzászóláshoz be kell jelentkezni