Sziasztok,
Hátha futottatok már bele ilyenbe: 2 hónapja fut egy szerverem és a RAID kártya mindenféle hibákat dobál:
- Eleinte "drive timeout" errorokat (AEN 9) dobált, amitől mindig szétesett a RAID, de ez megoldódni látszott azzal, hogy a SATA2-ről levettem SATA1-re a sebességet és kikapcsoltam a queuinget.
- Utána viszont cache flush failed (AEN 25) hibákat adott, amitől a Win azonnal leállt.
A szerver:
- ASUS M4A89GTD PRO/USB3
- AMD Phenom II X6 1055T
- 4GB GEIL Evo DDR3 1333Mhz CL7 KIT
- 3WARE 9690SA-4I-SGL (legfrissebb firmware és driver)
- 4x SAMSUNG 1000GB F3 7200rpm 32Mb SATA2 HD103SJ (3db RAID5-ben, 1 db hot-spare)
- Win7 64bit
Tény, hogy a winyók nem szerverbe szánt winyók, elképzelhető, hogy a winyók és a RAID kártya nem szeretik egymást, de nem szívesen veszek 4 server class winyót úgy, hogy nem tudom 100%-ra a hiba okát.
Előre is köszi a segítséget!
üdv: kzsiga
- 1959 megtekintés
Hozzászólások
Smart mit mond a vinyókról?
- A hozzászóláshoz be kell jelentkezni
semmilyen hibát nem mutat
- A hozzászóláshoz be kell jelentkezni
semmilyen hibát nem mutat
- A hozzászóláshoz be kell jelentkezni
Az oké, hogy hibát nem mutat, de úgy egyébként?:)
Ha a ctrl-el van bbu akkor érdemes a diszk cache-eket kikapcsolni, erre van elvileg opció a ctrl-en.
- A hozzászóláshoz be kell jelentkezni
itt a smart bővebben: http://bit.ly/ijct9t
bbu van, a disk cache ki van kapcsolva
(próbaképp kikapcsoltam a kártyán a write cache-t is, hátha így nem jön elő a cache flush fail. cserébe persze így nagyon lassú)
- A hozzászóláshoz be kell jelentkezni
Hm, próbáld meg úgy hogy csak sata1 és a queue be van kapcsolva. Igazság szerint még az is könnyen lehet, hogy a vezérlő firmware-e nem szereti a diszkjeid.
- A hozzászóláshoz be kell jelentkezni
Hétvégén kipróbálom a queue bekapcsot.
Közben breakout kábelt cseréltem + kiiktattam a sata backplane-t (eddig abban voltak a winyók, már direktben a kártyán).
Próbaképp visszaraktam a sata-t 3Gbps-re bekapcsoltam a write cachet és a queuinget, de restart után azonnal jöttek a timeoutok. Szóval valszeg nem kábel és nem backplane gond (bár egyelőre nem rakom vissza a winyókat a backplane-be)
Ki kéne próbálnom más winyókkal, ami viszont nincs... :S
- A hozzászóláshoz be kell jelentkezni
Ne csak a write cache-t kapcsold be hanem a Disk write cache-t is.
Nekem HP Smart Array csinálta ezt, igaz nem SJ-s hanem HD103UJ-s tömb esetén, hogy dobálta ki a diskeket, ugyanígy time outtal. 2 éve megy hibátlanul úgy, hogy be van kapcsolva a Dsik Write Cache is. Igaz ez kockázat, illik ilyenkor szünetmentesre tenni a gépet mert ez ellen a BBWC (BBU) nem véd!
(Mondjuk HP SA csak 1,5GBps-sel tudja a SATA disket kezelni, de NCQ az be van kapcsolva.)
- A hozzászóláshoz be kell jelentkezni
szünetmentes + bbu is van.
viszont a disk write cache nem ugyanaz mint a write cache?
lehet ezt nem jól tudom, nekem eddig a write cache ezt http://bit.ly/ic27Td, a disk write cache pedig ezt http://bit.ly/hSQZrp jelentette. Viszont tegnap vettem észre, hogy ezek ugyanazt állítják (egyiket bekapcsoltam, bekapcsolódott a másik is és fordítva)
- A hozzászóláshoz be kell jelentkezni
látom a compatible list-ben a Fuji és a Hitachi
hdd-ket, egy 1tb Hitachim van, azt oda tudom adni kölcsönbe,
már csak 3-at kell szerezned :)
- A hozzászóláshoz be kell jelentkezni
Alaplapi sata portokat letiltottad?
--
szerk:
az nem lehet, hogy a win külön akarja piszkálni
a hdd-ket?
Mikor jönnek a hibák(sűrű adatmozgatás alatt, viszonylagos csöndben)?
- A hozzászóláshoz be kell jelentkezni
Alaplapi sata portok nincsenek tiltva, mert az egyiken van egy dvd. A többit van értelme letiltani, úgy, hogy a dvd-s engedélyezve marad?
A Win elvileg nem látja külön a hdd-ket, csak egyben a raid kötetet.
A hibák előfordulása:
- időben random
- az adatmozgás jelenleg minimális (5-6 user doksikat tárol/szerkeszt rajta + egy kis adatmozgással járó adatbázist használnak)
- a drive timeoutok most már ritkábbak, addig volt sok (=minden rendszerindításkor) amíg le nem vettem a queuinget és a SATA linket 3Gbps-ről 1,5 Gbps-re
- A hozzászóláshoz be kell jelentkezni
Az időzítés miatt gondoltam az alaplapi sata portokra,
de ahogy a fejleményeket látom itt a hdd-sata card a gyanús.
Viszont az alaplap tud raid-et, legvégső esetben az is
maradhat(persze ez kevesebbet tud).
- A hozzászóláshoz be kell jelentkezni
Ezt ajánlom figyelmedbe:
http://www.samsung.com/global/business/hdd/learningresource/whitepapers…
A "drive timeout" hibáid a doksiban ismertetett jelenségre utalnak.
Engem megtréfált többször is ilyen (fals) hibajelzésekkel egy
3ware 9650SE vezérlő - RAID6-os tömbnél, volt úgy, hogy egyszerre 2 lemezt jelzett hibásnak. (agybaj kerülgetett)
Végül migráltam RAID10-re (ez persze némi területveszteséget jelent), azóta (1 éve) nincs hiba, és a sebessége is sokkal jobb.
Valószínűleg a "mai nagy SATA lemezek" + 3ware kártya + számításigényes Raid5/6 kombó nem a legjobb választás: RAID10 esetében sokkal kisebb a valószínűsége a timeout hibának.
- A hozzászóláshoz be kell jelentkezni
Na ez nekem új info volt, köszi a tippet!
Viszont akkor kérdés, hogy:
- miért csak akkor jönnek a drive timeoutok, ha sata2-re van állítva a sebesség, sata1-en miért nem?
- vajon a cache flush failt is ez okozhatja?
A raid10-re migrálást egyelőre talonban tartom, hátha sikerül megúszni újrahúzás nélkül.
Két kérdés, egyelőre csak elvi szinten:
- Mi történne, ha a tömb alatt próbaképp lecserélném a 9690SA-4I-t egy 9650SE-4LPML-re? (elvileg ugyanaz a codeset) Működne, vagy felejtsem el?
- Ha lecserélném a winyókat ugyanakkora server class winyókra, akkor a migrálást vajon meg tudnám úgy oldani, hogy egyesével cserélgetem ki a winyókat az újakra és minden cserénél megvárom míg a rebuildek végeznek (megint csak az újrahúzás elkerülése végett)
- A hozzászóláshoz be kell jelentkezni
Az utolsó két kérdes papíron működik, a diszk csere az 100% (persze nézz pontos szektor számot), de a dupla backupot semmi sem helyettesíti.
A sata2-t valamiért nemnagyon komálják a sas-os vezérlők, sokszor alapból sata1-re állítják a portot. Btw sata1-et a diszkeken jumperelted vagy a vezérlőnek mondtad hogy sata1-esek legyenek a portok?
- A hozzászóláshoz be kell jelentkezni
A sata1-et eredetileg diszken próbáltam meg jumperelni (lsi support szerint ez a biztosabb), de így egyáltalán nem látta a kártya a diszkeket (csekkoltam, hogy jó helyre rakom-e a jumpert). Így az maradt, hogy a vezérlőn állítottam be a sata1-et.
- A hozzászóláshoz be kell jelentkezni
A RAID10-re migrálást meg tudod újrahúzás nélkül is csinálni.A 3ware 96xx kontroller képes arra, hogy egy 3 lemez RAID 5 + 1 spare alakulatból 4 lemezes RAID10-et készítsen - működés közben (az op. rendszer fut, te dolgozhatsz, és a tw_cli-vel tudod sasolni, hol tart a migrálás).
Én egyszer (kényszerből, a már említett probléma miatt) egy éles üzemben működő szerveren migráltam így a raid-et (5 nap alatt végzett a kontroller a 2 TB-s tömbbel, úgy hogy közben csak némi teljesítménycsökkenés volt érzékelhető: még a migrálás közbeni újraindítást is elviseli). A tw_cli manuáljában a "migration" fejezetet olvasd át előtte alaposan.
A kérdéseidhez:
Az tény, hogy a modern lemezek meglehetősen "intelligensek", viszont ebből jön az, hogy összeakadnak a hardveres RAID vezérlő intelligenciájával... valószínűleg SATA2 módban a lemezben lévő vezérlő olyan timeout értékeket használ, ami nem jó a 3ware eszköznek.
A kontroller gyártója egyébként közzétett egy "disk drive compatibility list"-et: http://kb.lsi.com/Download15816.aspx
Abban megnézheted, milyen lemezeket minősítettek problémamentesnek ez általad használt vezérlővel.
A RAID vezérlő a tömbre vonatkozó adatokat a lemezekre írva tárolja: mivel más típusra cserélnéd, még ha azonos is a codeset, nem lehet mérget venni rá, hogy működik majd. Érdemes áttúrni az LSI honlapján a "knowledge base" oldalakat, hátha van erről valami.
A egyesével cserélgetés elvileg működik, de problémás lemezeknél, RAID5 mellett (ahol a rebuild komolyan megdolgoztatja a szereplőket), kicsit orosz rulett ízű.
A helyedben először kipróbálnám a RAID10 "live" migrálást, majd ha úgy sem megy, akkor verném magam lemezvásárlási költségekbe (vagy próbálkoznék a vezérlő típusváltásával).
- A hozzászóláshoz be kell jelentkezni
Hm, így már jobban hangzik a RAID10 migrálás, bár az 5 nap húzós.
A compatibility listet már sokszor végignyálaztam, de nem egyértelmű a választás
- Legolcsóbb megoldások: Samsung HE103UJ (bár most a Samsung szerzett egy fekte pontot nálam) vagy a Hitachi HDS721010KLA330 (de a Hitachi is desktop class)
- szívem szerint WD-t vagy Seagate-t vennék, de a listában lévőket nem nagyon lehet kapni. (Seagate Constellation ES ST31000524NS-t néztem egynek, de ennek a családnak csak a 2TB-osa van a listában, a support pedig nem állította 100%-ra, hogy az 1TB-os is ok)
Tudtok olyan 1TB diszket, ami kapható és tuti megy a 9690SA-val?
- A hozzászóláshoz be kell jelentkezni
Ha jól sejtem a 9690 az SAS vezérlő. A Seagate-nek van SAS portos constellation-je hasonló áron a sata-hoz. Ezeket jó eséllyel jobban szereti a vezérlő. Azt mindenképp csekkold, hogy a raid tömbön belül szereti-e a sata/sas keverést a vezírlő.
- A hozzászóláshoz be kell jelentkezni