iSCSI Dell ME5 – Proxmox környezetben I/O wait

Sziasztok,

Dell ME5 storage + Proxmox VE környezetben futó iSCSI alapú storage rendszerünknél komoly I/O wait és teljesítmény-anomáliák jelentkeznek (időszakos extrém IO-wait, VM-ek megfagynak, ME5 GUI lefagy, olvasási teljesítmény szélsőségesen változó).

Firmware frissek, multipath konfig Dell ajánlás szerint, RAID10 + SSD read-cache kipróbálva, PBS mentés optimalizálva, PVE friss telepítéssel is tesztelve. A jelenség változó, de vissza-térően tapasztalható, és szeretnénk helyben szakértővel kielemezni.

Keresek olyan szakembert, aki jártas:

Dell ME5 / ME-sorozatú storage-ban
iSCSI konfigurációban (ALUA, multipath, tuning)
Proxmox VE storage integrációban
teljesítményproblémák diagnosztikájában (I/O, latency, fio, multipath-d)

Helyszín: Székesfehérvár

Olyan valakit keresek, aki személyesen, helyben is tud foglalkozni vele (nem csak távoli) és lehetőleg számlaképes.

Köszönöm!

524 megtekintés

A diszk konfigurációt leírod? Csak arra gondoltam ha HDD-k vannak RAID10-ben és előtte read-cache SSD, akkor letörhet a teljesítmény ami nincs cacheben és HDD-ről kell olvasni. A szélsőségesen változó olvasási teljesítmény is erre utal, amikor nem cacheből jön az adat.

2 szavazat

A hozzászóláshoz be kell jelentkezni

Ezt néztétek? https://www.dell.com/support/manuals/en-us/powervault-me5012/me5_series…

0 szavazat

A hozzászóláshoz be kell jelentkezni

https://forum.proxmox.com/threads/serious-performance-and-stability-pro…

0 szavazat

A hozzászóláshoz be kell jelentkezni

Switchen és direkt kapcsolaton is ugyanaz a helyzet?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha írnál kicsit bővebben az architektúráról, akkor szerintem itt mi is segítenénk.

Pár apró kérdés részemről:

Pontosan mi a ME5 storage konfigurációja? Modell, lemezek mérete és száma, SSD mérete stb.
Van-e storage replikáció?
Hogy áll a tiering? Mit mutat az ottani statisztika?
Az SSD az RI vagy Mixed Use?
Hogy néz ki a storage és host közötti hálózat?
Mit lehet tudni a hostról? Hány VM fut rajta? Mekkora az overcommit rate?
Használtok-e thin LUN-okat?
Csak egy pár adott VM-nél jelentkezik a hiba vagy bármelyiknél?
Mit mutat a storage statisztika az írott / olvasott adatok arányára nézve?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Sziasztok

Köszönöm a választ megpróbálom összefoglalni jobban, de már őszintén nem hiszem hogy én meg tudom oldani....

A storage egy Dell ME5012, 10×4 TB SAS HDD RAID10-ben (512 k chunk), és van mellette egy 1,9 TB SSD read cache (RI típus). Cache policy: write-back + adaptive read-ahead. Nincs tiering vagy replikáció, csak egy pool és volume. A firmware a legfrissebb.
iSCSI-n keresztül csatlakozik, 2×25 Gbit/s round-robin ALUA multipath (Dell multipath.conf ajánlás alapján), jumbo frame aktív.

Direkt Dell dac kábelkapcsolattal (switch nélkül)

Host oldalon Proxmox VE 9 (kernel 6.14), LUN thin, kb. 15 VM fut rajta, 60–70 % overcommit mellett. A gond leginkább Proxmox Backup mentés közben jön elő, amikor az I/O wait kilő és a VM-ek megállnak. Írás 600–1000 MB/s, de olvasás néha beesik 200 MB/s alá (fio-val 13–15 MB/s is előfordult). SSD cache-szel a GUI lefagy, nélküle stabilabb, de időnként továbbra is vannak I/O delay.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A multipath konfigot másold be ide kérlek, megy egy multipath -r kimentet is!

A round-robin hol van konfigurálva?

Ezt találtam ME5 ajánlásnak.

device {
  vendor "DellEMC"
  product "ME5"
  path_grouping_policy group_by_prio
  path_checker "tur"
  hardware_handler "1 alua"
  prio "alua"
  failback immediate
  rr_weight "uniform"
  path_selector "service-time 0"
}

Nekem a 10x4TB NL-SAS meghajtó karcsúnak tűnik IO szempontból. Mondjuk a legjobb választás még a RAID10 volt, de a sizer így is csak alig több mint 1000 iops értéket ad erre a konfigurációra akárhogy csavargatom. Az 512k chunk méreten kívül próbáltatok mást? Igaz RAID10 esetén ez az ajánlás.

A megadott írás és olvasás értékek szerintem azzal magyarázhatók, hogy az írás elnyeli a write-back cache, az olvasás esetén pedig nem cacheből jön az adat hanem a diszkekről. Szerintem backup esetén nincs jelentősége a read-cache-nek pláne a read-aheadnek.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Így látatlanban szerintem ez a rendszer alulméretezett. 10db HDD eleve nem sok, a 4T lemez gyaníthatóan ráadásul nem is 10k, hanem 7.2k. Ez IOPS-ban elég karcsú. VM-ek alá 7.2k lemezt tenni borítékolja a hasonló problémákat, ~15VM már elég jól tudja ráncigálni ide-oda, ahogy élik egyéni életüket, túlzott terhelésre sincs feltétlenül szükség (gondolj bele, 1 VM alá nem jut egy teljes lemez sem, az SSD ezen nyilván tud javítani, de az sem csoda).

Mindezt az is erősíti, hogy ezen leírásod alapján elsősorban mentéskor fordul elő a probléma.

Mennyi adatot ment a mentés? Ha 1,9T-nál többet, akkor könnyen kipucolódhat ez az ssd cache, a 7,2k lemez kínosan lassú lehet.

Az IOps értékeket is meg kellene nézni.

A VM-ek mit csinálnának, mikor belassúlnak? Írnának vagy olvasának? Milyen jellegű VM-ek?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mennyi adatot ment a mentés? Ha 1,9T-nál többet, akkor könnyen kipucolódhat ez az ssd cache, a 7,2k lemez kínosan lassú lehet.

Azert csak nem olyan buta a cache benne, hogy csak LRU-t tud.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szerintem erdemes korulnezni a TCP Delayed Ack es az iSCSI Queue Depth beallitasok korul.

0 szavazat

A hozzászóláshoz be kell jelentkezni

PowerVault ME50xx

Latest code: 1.2.1.5 August 2025

Recommended code: 1.2.0.3 May 2024

Minimum supported code: 1.2.0.2 Oct 2023

0 szavazat

A hozzászóláshoz be kell jelentkezni

iSCSI Dell ME5 – Proxmox környezetben I/O wait

Hozzászólások