Van egy gépem, abban 8 lemez. Ebből 2 lemez egy zpool mirror, 6 lemez zpool raidz1. A probléma a következő. Néha az egyik vagy a másik lemez kikapcsol. A dmesg-ben általában ilyesmit látok:
(ada7:siisch1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 38 c0 68 36 40 13 00 00 00 00 00
(ada7:siisch1:0:0:0): CAM status: ATA Status Error
(ada7:siisch1:0:0:0): ATA status: 41 (DRDY ERR), error: 40 (UNC )
(ada7:siisch1:0:0:0): RES: 41 40 d0 68 36 40 13 00 00 00 00
(ada7:siisch1:0:0:0): Retrying command
ada3 at ata5 bus 0 scbus5 target 0 lun 0
ada3: s/n 50026B766C01AB86 detached
GEOM_ELI: g_eli_read_done() failed (error=6) ada3p3.eli[READ(offset=270336, length=8192)]
GEOM_ELI: g_eli_write_done() failed (error=6) ada3p3.eli[WRITE(offset=23618879488, length=102400)]
GEOM_ELI: g_eli_read_done() failed (error=6) ada3p3.eli[READ(offset=117884329984, length=8192)]
GEOM_ELI: g_eli_read_done() failed (error=6) ada3p3.eli[READ(offset=117884592128, length=8192)]
GEOM_ELI: g_eli_write_done() failed (error=6) ada3p3.eli[WRITE(offset=22552817664, length=4096)]
GEOM_ELI: Device ada3p3.eli destroyed.
GEOM_ELI: Detached ada3p3.eli on last close.
(ada3:ata5:0:0:0): Periph destroyed
Az az érdekesség, hogy az üzenetek MINDIG párban jönnek. Amikor az egyik lemezben bekövetkezik egy olvasási hiba (amit újrapróbál) akkor egy másik lemez detached lesz. Először azt hittem, hogy valamelyik lemez hibásodott meg. Ezért kicseréltem azt, amelyik a leggyakrabban lekapcsolt. Ez a raidz1 tömbben volt. Amikor elkezdte a resilvering-et, akkor egy MÁSIK lemez is lekapcsolt. Amikor véget ért a resilvering és újraindítottam a gépet, akkor a régi lemez visszajött, és újabb resilvering-be kezdett. De még nem fejezte be mikor egy harmadik lemez kezdte ugyan ezt a mókát.
Ezek közül a lemezek közül amik "párban" rendetlenkednek, van olyan pár ami külön vezérlőn van. És van közöttük olyan is, amit két hete vásároltam. Szóval azt a lehetőséget kizárnám, hogy "véletlenül" pont 3-4 hibás lemezt tettem a gépbe. Meg azt is, hogy véletlenül a két külön vezérlőn levő lemez egyszerre (ugyan abban a másodpercben?) hibásodik meg egy pillanatra. Ráadásul, az a lemez ami detached lesz, a következő reboot-kor általában attached.
Így néz ki jelenleg:
pool: data
state: DEGRADED
status: One or more devices is currently being resilvered. The pool will
continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
scan: resilver in progress since Sun Feb 19 10:04:39 2017
132G scanned out of 1,66T at 55,1M/s, 8h4m to go
20,9G resilvered, 7,80% done
config:
NAME STATE READ WRITE CKSUM
data DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
ada0.eli ONLINE 0 0 0
ada1.eli ONLINE 0 0 0
ada2.eli ONLINE 0 0 0
ada5.eli ONLINE 0 0 0
replacing-4 DEGRADED 0 0 4,19K
8944933819716198089 OFFLINE 0 0 0 was /dev/ada6.eli/old
ada6.eli ONLINE 0 0 0 (resilvering)
ada7.eli ONLINE 0 0 1 (resilvering)
errors: 6960631 data errors, use '-v' for a list
pool: zroot
state: DEGRADED
status: One or more devices could not be opened. Sufficient replicas exist for
the pool to continue functioning in a degraded state.
action: Attach the missing device and online it using 'zpool online'.
see: http://illumos.org/msg/ZFS-8000-2Q
scan: resilvered 119M in 0h0m with 0 errors on Sat Feb 18 16:08:01 2017
config:
NAME STATE READ WRITE CKSUM
zroot DEGRADED 0 0 0
mirror-0 DEGRADED 0 0 0
1437839798835578480 UNAVAIL 3 2,26K 0 was /dev/ada3p3.eli
ada4p3.eli ONLINE 0 0 0
errors: No known data errors
A data nevű pool az épp "magánál van" és folytatja a resilvering-et. Most épp a zroot az aminél kiesett egy lemez. (De ha újraindítom a gépet akkor visszajön.)
Ami még feltűnő volt, hogy a resilvering sebessége néha leesik 6-7MB/sec-re és ott marad órákig. Ez rendkívül kevésnek tűnik.
Amire még gondolni tudnék az a táp probléma - de ebben a gépben jelenleg egy 500W-os táp van. A 8 lemezből 2 az SSD, a CPU terhelés folyamatos nulla közelében. Szóval nem valószínű, hogy az 500W táp kevés lenne.
Majd még próbálok kicserélni több lemezt, de sajnos ezt addig nem tudom megtenni amíg a resilvering készen nem lesz. :-(
Bármi ötlet hogy mitől lehet ez?
- 2597 megtekintés
Hozzászólások
>errors: 6960631 data errors, use '-v' for a list
ahh ilyeneket szeretek látni :)
imho hw, probably táp hiba, 500W PMPO ide vagy oda
smartd
- A hozzászóláshoz be kell jelentkezni
Hát talán még veszek egy még nagyobb tápot bele és azzal is megpróbálom. De ez ma nem fog menni.
- A hozzászóláshoz be kell jelentkezni
Nem feltétlen nagyobb táp kell, hanem lehet hogy jobb vagy csak simán a kondik öregedtek el a régiben. Most milyen táp van a gépben?
- A hozzászóláshoz be kell jelentkezni
Egyébként én meglepődtem azon amit a zfs csinált. A raidz1 tömbben volt 6 lemez. Ebből az egyik (ada6 old) elszállt. Arra csináltam egy offline + replace-t egy új lemezzel (ada6 new). Elkezdte azt újraépíteni, és újraépítés közben elment még egy lemez (ada7)
Na én azt vártam volna, hogy itt föladja és kiírja hogy nincs elég device ahhoz hogy folytassa. Általában ezt szokta csinálni akkor, ha egy raidz1 -ből elmegy két lemez. És ha ezt csinálta volna, akkor megtehettem volna hogy újraélesztem az ada7-et, újrainditom a gépet és akkor ott folytatja ahol abbahagyta. Nem lett volna semmi gond. De érdekes módon nem ezt csinálta, hanem a "félig kész" ada6 new jó adatait jónak vette, a maradék részen meg végigment és unrecovareable hibákat készitett belőlük. (Ebbe nem tudtam beavatkozni mert ez tegnap este történt mikozben aludtam) Utána mikor sikerült visszahozni az ada7-et, akkor meg a különbségekből elkezdett hibákat csinálni az ada6 new lemezen (ami fura mert az a lemez konkrétan soha nem szállt el).
Most már ott tartok, hogy fogalmam nincs hogy sikerült-e megmenteni az adatokat vagy nem. Csak reménykedni tudok. De ezt talán nem is fogom tudni amíg a végére nem ér ennek a resilvering-nek (ami lehet hogy nem fog sikerülni). Ha tehetném akkor már törölnék mindent és tiszta lappal indulnék, de nem tehetem, mert kellenek ezek az adatok. :(
- A hozzászóláshoz be kell jelentkezni
amit leírsz az nem hangzik annyira veszélyes szituációnak, én a helyedben az összes lemezt most rögtön lekapcsolnám és egy másik gépben összeraknám. a replace mondjuk szarul hangzik, azt kár/hiba volt elindítanod, mert vélhetően nem a hdd-kkel van a gond. ha csak 1 replace-t toltál akkor elvileg még nem reszeltek az adataid jó részének.
a data errorok automatikusan elmúlnak, amint működő példány kerül elő belőlük a poolból, azaz érdemes az összes hdd-vel egyszerre elindítani a poolt. persze raidz1-et még sose mertem csinálni csak raidz2-t, és azon kívül mindenhol csak (akár 6 darabos) mirrorok vannak
zfs-t alapvetően szinte lehetetlen megölni a tervezett redundancián belül (tehát pl. raidz1-ben max 1 fail megengedett), nekem még csak sw buggal és egyéb fatalista mókázással sikerült (iscsi+geli+flaky usb ház mert miért is ne), és egy 2 hónapos (online!) snapshotból még úgy is sikerült előhozni az akkori állapotot.
- A hozzászóláshoz be kell jelentkezni
Szerintem az összes hdd-vel már nem tudom, mert a régit (amiről azt hittem hogy hibás) már offline-oztam és kiadtam rá egy replace-t. Szóval azt jelenleg nem tudom visszatenni bele.
- A hozzászóláshoz be kell jelentkezni
anélkül (a failed+replacement páros bármelyik tagja nélkül) is menni fog. adatvesztés nélkül.
- A hozzászóláshoz be kell jelentkezni
Ez nekem nem teljesen tiszta. Miert offlineoztal egy lemezt rebuild/ replace _ELOTT_?
Pont ez az egyik szepsege a zfs/zpool-nak az md/lvm/*shittifs* kombokkal szemben, hogy ha van egy raid1-ed, akkor megprobalja a regi sz.r lemezekrol a leheto legtobb informaciot osszegereblyezni neked. Vagyis tegyuk fel, van a es b lemezed.
a lemezrol elolvashato az 0,1,2,3,4,6-os blokk,
b lemezrol elolvashato az 5,7,8,9,10-es blokk.
Beteszel egy c lemezt ugyanebbe a tombbe, es hagyod vegigfutni a resilvert, akkor a es b lemezbol kijon egy komplett tartalom c-re.
Utana mar offline-ozhatod a-t vagy b-t. De igazibol azt sem kell.
Ha beteszed az uj lemezt, akkor azt mondod, hogy zpool replace a c, es akkor a c-re megy a resilver, es a vegen sajat maga loki ki a pool-bol az a lemezt.
Utana beteszel meg egy egeszseges lemezt, es azt mondod replace b d, es a vegen b-t is kiveheted.
Ha kell, akkor a-t es b-t a replace triggerelt resilvering utan, akar hotswap is kiveheted, a rendszert onnantol kezdve hidegen hagyja.
- A hozzászóláshoz be kell jelentkezni
Ez nekem nem teljesen tiszta. Miert offlineoztal egy lemezt rebuild/ replace _ELOTT_?
Például mert nem tudott több lemezt kezelni a gép?
- A hozzászóláshoz be kell jelentkezni
Hogyhogy nem?
Elfogyott az összes sata, pci, és usb port, amin keresztül még becsattanthattál volna valamilyen átalakítás után a resilvering idejére +1 lemezt, és inkább adatvesztést kockáztattál?
Utána meg csodálkozol, hogy esetleg adat elveszhetett?
Biztos nem ez történt, csak még nem tudom mit értek félre.
- A hozzászóláshoz be kell jelentkezni
Elfogyott az összes sata, pci, és usb port, amin keresztül még becsattanthattál volna valamilyen átalakítás után a resilvering idejére +1 lemezt, és inkább adatvesztést kockáztattál?
Utána meg csodálkozol, hogy esetleg adat elveszhetett?
Ne nekem mondd, nem velem esett meg. Én csak felvázoltam egy lehetséges racionális magyarázatot az offline-ozásra.
- A hozzászóláshoz be kell jelentkezni
Azért mert az a lemez volt az ami 10 percenként lekapcsolt, és meg voltam róla győződve hogy nem jó. Egyébként az is igaz, hogy nem volt több SATA hely benne, de mondjuk ezt meg tudtam volna oldani. Úgy gondolkodtam, hogy ha van egy lemez ami állandóan lekapcsol, akkor az a rendszer többi részére is káros, veszélyes lehet. Ezért húztam le. De ha nem húztam volna le, attól se lett volna jobb, mert ha nem húzom le én akkor majd ő lekapcsolja magát
Csak akkor még nem tudtam, hogy nem a lemez miatt van (de ez a "ha tudtam volna" dolog már senkin nem segít)
- A hozzászóláshoz be kell jelentkezni
Értem a gondolkodásmenetedet.
Viszont én másképp csináltam volna az adott szituációban: Ha maga a lemez gyanús, és úgy gondolom káros lehet a többi eszközre nézve, akkor a probléma impactját próbáltam volna előbb mitigálni:
* Fogtam volna egy sata-usb csatlakozást, és a problematikusnak itélt lemezt arra kötöttem volna. usb-n akkora túlfeszt vagy más káros dolgot akkorát úgyse tud beküldeni, hogy komolyabb gondot okozzon. Max az USB részeket égeti le az alaplapról. De trolli- és villamosmérnök kollégák majd kijavítanak, ha rosszul gondolom.
* A lemez helyére meg mehetett volna be egyből az üres replacement
-> zpool replace régi új
- A hozzászóláshoz be kell jelentkezni
Nagyon jó hogy mondtad ezt az USB-s ötletet, mert még egy lemezt szeretnék benne replace-ezni. (Nem rossz, de már régi.)
- A hozzászóláshoz be kell jelentkezni
Mennyi ECC memória van a gépben? - (Gondolva arra, hogy 64-bites a rendszer...) Valahol olvastam, hogy 32 GB memóriánál még csak szevedett az "újraépítéssel", de 64GB-vel simán megcsinálta. - (És ott nem volt 8 lemez.)
Persze.., mennyi az alaplap által kezelhető memória maximuma..
- A hozzászóláshoz be kell jelentkezni
32GB van benne. Közben lett egy kis fejlemény. Két vinyót megpróbáltam külön tápra tenni, amíg nem jön meg az új táp. Mikor megpróbáltam átdugni a MOLEX-SATA Y táp csatlakozót akkor az egyik oldalából kiesett két vezeték.
Namost erről a vezetékről azt kell tudni, hogy néhány napja vettem, pontosan azért hogy ne legyenek ilyen gondok. Amikor beraktam a gépbe akkor még úgy tűnt, hogy minden rendben van vele. Azóta többször is megnéztem a vezetékeket, de úgy tűnik hogy ezt nem rángattam meg eléggé.
Egy pár száz forintos vezetékdarab miatt b@szódott el néhány 100GB fontos adat. Dühítő!
Ez egyébként magyarázná azt is, hogy miért ment tönkre felváltva 2 vinyó amik másik vezérlőn voltak. (Mert egy Y tápkábelen voltak.) Meg azt is, hogy miután kicseréltem az egyiket, hogyan "romolhatott" el a másik. Meg azt is, hogy gép újraindítás után csodával határos módon miért éled újra mindig.
De most már nem merek erre se megesküdni, ki tudja lehet hogy egyszerre több dolog is elromlott?
- A hozzászóláshoz be kell jelentkezni
Sajnos a molex-eknél átkozott tud lenni, amikor nem tudod beledugni normálisan, mert a másik vége felé kitolja valamelyest az érintkezőt, - a műanyag testek meg szépen összezáródnak, - és ha az ember nem 4 dioptriával nézi, esetleg észre sem veszi. (Máris annyi a korrekt érintkezésnek.)
- A hozzászóláshoz be kell jelentkezni
Egy pár száz forintos vezetékdarab miatt b@szódott el néhány 100GB fontos adat. Dühítő!
Ezek szerint nem volt (offsite) backup?
- A hozzászóláshoz be kell jelentkezni
De volt. Ez volt az, és most szereltem át egy másik gépbe a lemezeket.
Szívás.
- A hozzászóláshoz be kell jelentkezni
Konkrétan: az éles szerver elszállt, és abból a gépből ami a backupot tárolta, akartam egy új szerver varázsolni. Úgy tűnt hogy sikerült, és miközben azt már elkezdték használni, kiderült hogy mégse. De közben már megváltoztak az adatok. Szóval ha másik mentést állítok vissza, az már adatvesztésnek számít.
- A hozzászóláshoz be kell jelentkezni
Olyat én is tapasztaltam desktop tápokkal, hogy ha egy hdd-t kihúzok, akkor a kábelen lévő többi hdd is újraindul (katt - leáll - újra felpörög), tehát egy kontakthibás Y kábel elég nagy galibát okozhat egy ilyesmire fel nem készített tápnál.
- A hozzászóláshoz be kell jelentkezni
aha, szokásos sata-kvaliti.
molex best.
- A hozzászóláshoz be kell jelentkezni
az volt mar, hogy normalis backplane aztan happyness?
- A hozzászóláshoz be kell jelentkezni
volt, de ezt workaroundnak hívják
- A hozzászóláshoz be kell jelentkezni
szerintem megelozesnek
- A hozzászóláshoz be kell jelentkezni
kiskapu-féle interpretációban ugyanaz
- A hozzászóláshoz be kell jelentkezni
az a katranylabda es a lemezdruida valami uj reinkarnacioja?
- A hozzászóláshoz be kell jelentkezni
Jártam már hasonlóan y kábellel, akkor nem lett adatvesztés csak egy nap gondolkozás és próbálkozás és hajtépés lett belőle, mert mindenképpen azt hittem, hogy az újonnan berakott PCIe sata kártyákból nem tud párhuzamosan annyit kezelni az alaplap/linux vagy valamelyik rossz. Jó sok idő volt amire rájöttem, hogy a hiba nem ezektől függ, hanem attól, hogy a sok random tápkábel közül melyiket dugom bele a diszkbe.
- A hozzászóláshoz be kell jelentkezni
Off: örülök, hogy ezúttal nem szarkazmust látok tőled, hanem segítő szándékot.
- A hozzászóláshoz be kell jelentkezni
elnézést hogy a zándrojidos epülös systemdixes pacmanSyulinuxos freeszoftveres circlejerking szeánszokban zajló "technikai" diskurzushoz nem tudok felnőni
- A hozzászóláshoz be kell jelentkezni
Vezérlő tuti nem döglődik?
Illetve: memtest mit mond?
<-------
You can't grep on dead trees.
- A hozzászóláshoz be kell jelentkezni
ECC memóriás gép. Korábban más lemezekkel évekig ment. Persze attól még lehet hogy pont most romlott el a memória, de nem hiszem. Nem utal rá semmi más. Nincsenek segfault-os processzek vagy hasonlók.
- A hozzászóláshoz be kell jelentkezni
Valóban, ECC mellett nem valószínű, hogy rejtve maradna memória hiba.
A táp is valószínűbb, mint a vezérlő.
Kitartás! :)
<-------
You can't grep on dead trees.
- A hozzászóláshoz be kell jelentkezni
UPDATE! Lecseréltem a tápot, a sata kábeleket, a sata tápkábeleket de így is rossz volt. Mégse a SATA tápábel volt a baja (vagy nem csak). Legtöbbször ugyan arról a SATA vezérlőről tűntek el a lemezek, ezért azt is lecseréltem - EGY UGYANOLYANRA - és ez sem oldotta meg a problémát.
Közben rendeltem egy rendes ARECA kártyát, de próbaképp lehúztam annyi lemezt amennyivel még éppen mennek a tömbök, és rádugtam mindent az alaplapi vezérlőre. Teljesen eltávolítottam az extra SATA vezérlőt, és most jónak tűnik. Nem akarom elkiabálni, de lehet hogy így jó lesz.
Ha ez beigazolódik, akkor ez (a RAID kártya csere miatt) azt jelenti hogy magával a RAID vezérlővel van a gond, vagy szoftveresen vagy hardveresen.
Akkor végül azt a konklúziót fogom levonni hogy: soha többé nem használok Silicon Image RAID vezérlőt. Nem biztos hogy maga a kártya az ipari hulladék, lehetséges hogy a driver-je rossz. Ennyiből ezt nem lehet megmondani.
- A hozzászóláshoz be kell jelentkezni
Anno nekem sil1394 (? - a sata I-es változat) terhelés alatt crc errorokkal rakta tele a zfs mirror egyik lábát.
Azóta kerülöm őket...
<-------
You can't grep on dead trees.
- A hozzászóláshoz be kell jelentkezni
Ugyan ez a vezérlő egy másik gépben két éven át jól ment. Bár igaz hogy azon még FreeBSD 10 volt, ezen meg 11 van.
- A hozzászóláshoz be kell jelentkezni
Ja, ez Solaris 10 Update (nemtommennyi, valahol 4-8 között) volt.
És csak nagyobb terhelés alatt, de pontosan nem mértem ki, mennyi is volt a "nagyobb".
<-------
You can't grep on dead trees.
- A hozzászóláshoz be kell jelentkezni
jahogy silicon image, hát ezt talán bele kellett volna írni a posztba
kettőből kettő szar
- A hozzászóláshoz be kell jelentkezni
kettobol 3
- A hozzászóláshoz be kell jelentkezni
Hét ezen jót szórakoztam. :-) Remélem az Areca jobb lesz, holnap érkezik.
- A hozzászóláshoz be kell jelentkezni
ZFS estében nem kell, sőt nem is ajánlott raid kártyát használni. Egy sima HBA kártya lenne az ideális, vagy ha csak raid kártya lehet, akkor olyan ami direkt az OS-nek ki tudja adni a HDD-t, nem csak úgy, hogy minden hdd-ből csinálsz egy stripe-ot vagy jbod-ot.
- A hozzászóláshoz be kell jelentkezni
Természetesen a SIL-t se raid módban használtam, hanem pass through
- A hozzászóláshoz be kell jelentkezni
Az Areca egy rendes RAID vezérlő. Ha tényleg sil* a kártya, akkor azt ne nevezzük RAID vezérlőnek, maximum RAID-vezérlőt imitáló kártyának lehet hívni...
"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."
- A hozzászóláshoz be kell jelentkezni
Ja mondjuk azt is pass through-ba fogom, zpool miatt. Nem akarok szívni ha tönkremegy a vezérlő és nem tudok még egy pont olyat szerezni.
- A hozzászóláshoz be kell jelentkezni
ARECA szerencsére tudja. Én most 3ware kártyát fogok cserélni HBA-ra emiatt, mert annak a JBOD módja nem igazi pass-through.
"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."
- A hozzászóláshoz be kell jelentkezni