3Ware 9690SA-8I "Bus error", csak olvasható fájlrendszer

Alaplap: Intel S5520HC
Raid: 3Ware 9690SA-8I - LSI
OS: Ubuntu 12.04 LTS (3.11.0-15)

A raid kártya már elég régi, a HDD-ket jumperrel le kellett korlátozni 3Gbit/s-re, különben random "device error" üzenet jelent meg egyes lemezek mellett tw-cli /c4 show -ban. A HDD-k sima desktop HDD-k. Így működött évekig hiba nélkül, ugyanezzel az alaplappal, HDD-kel, csak az ubuntu volt régebbi rajta.
Most újra lett telepítve, belekerült egy hotswap keret (Chembro 84H211210-005) + 2 hotspare HDD.

5-12 napig minden rendben működik (0-24), majd egyszer csak a raid kártya nem válaszol, a fájlrendszereket újracsatolja az OS csak olvashatóként. Reset után minden működik tovább újabb 5-12 napig.
Ilyenkor a tw-cli csak ennyi mond az eszközről: "Bus error"

Lehalás előtt a tw-cli /c4 show semmi hibát nem mutatott. Lehalás alatt dmesg.

tw-cli /c4 show
tw-cli /c4 show diag
tw-cli /c4 show alarms nem mutat semmi érdekeset, csak egy esedékes battery testet.

A géphez jelenleg nincs fizikai hozzáférésem. Ha lesz, én a hotswap keretet venném ki belőle először (az az egyetlen új hw ami korábban nem volt benne). A nagyker firmware frissítéseket javasolt (hotswap keret, raid kártya, alaplap bios), és a HDD-k enterprise verzióra cserélését. A hotswap kerethez nem találtam semmi firmware-t, a többit frissíteni fogom. HDD-k enterprise verzióra cserélését nem én döntöm el, nem valószínű hogy cserélni fogják, "desktop hdd-vel évekig működött, és több szerverünk is így működik raid10-ben" alapon.

Egyéb tipp?

Hozzászólások

A mindenféle firmware cseréket csináld meg elsőre és a diszkeket ellenőrizd sima SATA porton, hogy a smart infók rendben vannak-e.

A 3ware az szokott a logba nyomni egy hibakódot. Nálad ezt: 0x06:0x002C.
Ez alapján érdemes keresni.
Pl: http://arstechnica.com/civis/viewtopic.php?f=21&t=1172653
- firmware és driver upgrade megoldotta nekik
vagy: http://forums.storagereview.com/index.php/topic/28920-3ware-9650se-cont…
- ötletek is vannak a thread-ben, hogy pl. régebbi firmware-ekkel bizonyos kártyák csinálták ezt RAID6-ban, ha 256k volt a chunk size. Most már ez a default.

Szóval első a firmware frissítés.

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

andrej_, Dwokfur: köszönöm a válaszokat!

Hibakód alapján keresve találtam egy blog posztot, ahol ideiglenes megoldásként a raid cache kikapcsolását javasolták, ezt megtettem, hátha kibírja amíg frissítek.

tw_cli /c4 update fw=/path/.img biztonságos? Kicsit ódzkodom az élő rendszer alól történő firmware frissítéstől...

Ez feltölti az új firmware-t, de tudtommal az upgrade csak egy reboot során történik majd meg. Tehát kell hozzá egy újraindítás. Már csináltam több fajta 3ware vezérlőn és eddig nem volt probléma. De egyik sem olyan típus volt, mint a tied.
Hát a cache kikapcsolása hosszú távon felejtő szerintem.
Én bízom a firmware upgrade-ben. Érdemes driver-ből is a legfrissebbet felrakni.
Egyébként milyen raid és mekkora a stripe size?

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."