[ Megoldva ] Szerver HDD led sárgán villog

Sziasztok!

Munkahelyemen (középiskola) van egy DELL PowerEdge 2900 III. (torony kivitel), a szerver még 1 hónapig garanciális:

  • CPU1, CPU2: Quad Core Intel® Xeon® E5410 2x6MB Cache, 2.33GHz 1333MHz FSB
  • 8GB RAM, 667MHz (4x2GB Dual Ranked FB DIMMs)
  • Raid Connectivity: C4 Integrated SAS/ SATA, RAID 5 using add in internal PERC controller, min3/max8 Hard Drives
  • Two Hot Plug Power Supplies for Redundancy
  • TCP/IP Offload Engine Enablement: TCP/IP Offload Engine (2P TOE) Ready
  • Powercord Power Cord, PDU (Rack)
  • 1st RAID or SCSI Controller Card - PERC 6/i Internal RAID Controller Card (256MB cache, battery backup)
  • 4 x 500GB HDD, SATA, 3.5-inch, 7.2K RPM Hard Drive (Hot Plug)

Tehát a szerverben HW RAID5 van, nem egészen 3 éve üzemel, nyáron lett újratelepítve (Debian 6), a /boot - ext3, a többi ext4.

Ma vettem észre, hogy a szerver egyik HDD ledje (egy EKG szívritmushoz hasonlít a piktogramja) zöld-sárga váltásban villog, de hogy pontosan mikor jelentkezett először a hiba azt nem tudom (nem nézem minden nap).

A Dell support-ot már hívtuk, azt mondták téves "riasztás" is lehet, indítsuk újra a szervert és nézzük meg, hogy utána is jelentkezik-e a hiba.
Jó ötlet ez?
Továbbá azt mondták, hogy mentsük ki a RAID logját és küldjük el nekik. Hogyan tudom kimenteni a RAID logot?

Mi van akkor, ha valamilyen hiba volt a rendszerben és a RAID most állítja helyre az adatokat (a szerveren legalább 500GB adat van).

Van egy "Dell Systems Build and Update Utility" CD, de még soha nem használtam. Ezzel tudok diagnosztikákat futtatni a szerveren, ha a CD-ről boot-olok? Vagy ezzel meg tudom nézni / ki tudom menteni a RAID logját?

Segítségeteket előre is köszönöm!

veresh

Hozzászólások

A syslogban nem látok semmi RAID / HDD hibára utaló bejegyzést.
De ha már itt tartunk DNS névfeloldási hibákból viszont elég sok van:

Nov 28 08:12:31 panka named[17494]: error (FORMERR) resolving 'id.google.hu/A/IN': 195.199.255.58#53
Nov 28 08:12:31 panka named[17494]: DNS format error from 195.199.255.57#53 resolving id.google.hu/A for client 10.x.y.z#52603: unrelated A id.l.google.com in hu authority section

korábban ilyen hibaüzeneteket nem láttam, mit jelentenek ezek?

De szerintem ez nincs összefüggésben a HDD vagy RAID hibával?! Vagy rosszul gondolom?

Telepítettem a megacli-t most azt nézegetem, hogyan kell paraméterezni.

Hát próbáld meg, de nekem voltak asszem gondjaim a hatossal, de azt azóta orvosolhatták.
Ha nem megy a 6-os, akkor próbáld meg esetleg az ötöst. Ha jól emlékszem, akkor az 5.1 az ment jól nekem.
Ha minden igaz, akkor ezzel az 5.1-essel miután elindult kellett nyomni egy "startx"-et hogy elinduljon a grafikus felület.
Ott lesznek kint az asztalon majd a hardware diagnosztikai eszközök ikonjai.

Ma hajnalban megvolt a reboot a Live OMSA 6.5-tel.
Automatikusan grafikus üzemmódban indul, nem volt vele semmi probléma.

Futtattam a "Dell System E-Support Tool"-t, felvettem a kapcsolatot a Dell support-tal, elküldtem a DSET reportot, a hibajegyet rögzítették. Elvileg holnap küldik a szerviztechnikus kollégájukat a csere HDD-vel.

nekünk vannak ilyen szervereink, mindegyiken van dellomsa, mivel a debian/ubuntuhoz van repo és onnan kell felrakni. Annyi hogyha a rendszered 64bites akkor kell asszem 2 lib 32bites rendszerből hogy az authentikáció működjön.

Amúgy valszeg eldobta a disket a tömb, de egy reboot majd belépve a RAID biosába hamar kiderül mi a gond.

iu: http://hwraid.le-vert.net/wiki/DebianPackages
felrakva a megasascli-status -t az is megmondja a diskek állapotát.

Fedora 16, Thinkpad x61s

És hol található az a repo? Debian 6-ra is felmegy, függőségek, stb. rendben lesz?
Igen, 64 bites Debian 6 van rajta.

Újraindítani egyrészről eddig nem mertem, másrészről pedig elég sok szolgáltatás fut rajta.

Telepítettem a megaclisas-status csomagot, és az alábbi eredményt adja:


# megaclisas-status
-- Controller informations --
-- ID | Model
c0 | PERC 6/i Integrated

-- Arrays informations --
-- ID | Type | Size | Status | InProgress
c0u0 | RAID5 | 1362G | Optimal | None

-- Disks informations
-- ID | Model | Status
c0u0p0 | 9QM88R3NST3500320NS MA07 | Online
c0u0p1 | 9QM88RELST3500320NS MA07 | Online
c0u0p2 | 9QM86R4RST3500320NS MA07 | Online
c0u0p3 | 9QM83LTVST3500320NS MA07 | Online

Tehát elvileg mind a 4 db. HDD Online.

deb http://ftp.sara.nl/pub/sara-omsa dell6 sara

Valamint /lib32/security/
be kellenek a következő a következő: 32 bites releaseből származő libek:

pam_ldap.so
pam_nologin.so
pam_unix.so

és akkor elvileg a https://serverip:1311/ en elérhető az openmanage root lesz az usernév.

ui: viszont mivel a megasascli-status nem mondd hibát azért egy reboottal csak megnlesném a RAID biosát. Valamint leszedni a delltől a driver CD-t, az automatikusan felfrissít minden firmware-t az aktuálisra. Annyi, hogy érdemes Live 32 bites Centos-t ről bootolni és úgy használni az isot, mert nem éppen debian barát. meg a live cd hez kell pár package hogy menjen, de utána mindent frissit.

Fedora 16, Thinkpad x61s

Az OMSA 6.5 Live verziójával elkészítettem hajnalban a reportokat, most egyelőre nem telepítem az omsa-t a rendszerre.

A RAID BIOS-át is megnéztem mind a 4 HDD Online de az elsőnél jelzi, hogy hiba van.

Viszont az OMSA azt is jelezte, hogy a RAID vezérlő firmware verzió elavult és a 6.3.0-0001 -et javasolja.
Gondolom az alábbi kettő közül kellene valamelyiket letöltenem és boot-olni:

Nem találok logikát a két verzió között:

  • az első omsa 6.5, Build-7.1, 2.7GB
  • a második omsa 6.4, Build-9.1, 794MB

Vajon mi a két verzió között a lényegi eltérés?
Melyik változatra van szükségem, ha a RAID vezérlő firmware-t akarom frissíteni?

Nem jó jel, és vaktában lövödözni elég veszélyes. Minden raidkártyának 'minden' oprendszer alá van valami kezelő/diagnosztikai progija, keresd meg és nézd meg, mit mond. És backupolj először..:-)

meg1x: probáld már megtalálni a Debian alatt futattható progit perc 6i kártyához..,(közben rákersetem: megacli lesz , mernék rá fogadni, hogy a Dell oldaláról is letölthető rpm-ben), de ha 'perc 6i debian' -ra keresel a google-ban, elég sok hasznos találatot kapsz az első lapon is.

Köszönöm (spymorass-nak is) a segítséget.
Telepítettem a megacli csomagot és az alábbi parancsot futtattam le:


# megacli -LDInfo -Lall -aALL

Adapter 0 -- Virtual Drive Information:
Virtual Disk: 0 (Target Id: 0)
Name:
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:1.362 TB
State: Optimal
Stripe Size: 64 KB
Number Of Drives:4
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default
Encryption Type: None

Exit Code: 0x00

A State: Optimal-t én úgy értelmezem, hogy minden rendben van.

Telepítettem a megaclisas-status csomagot is, majd futtattam, az eredmény a http://hup.hu/node/109211#comment-1380005 válaszban olvasható.
És ebből a státusz kimenetből is azt olvasom ki, hogy minden rendben van.

De akkor miért jelez???

Én olyannal találkoztam gyakran, hogy talált badsector-t a disk/vezérlő és amiatt villogott.
Ettől még maga a RAID tömb rendben van csak jelzi, hogy a disk-et érdemes cseréltetni.

Sőt, ha kiveszed a disk-et és újra visszateszed 5 perc múlva, akkor már zöld lesz.
Természetesen ilyenkor a tömböt újraépíti az adott disk-re.
Majd amikor megint talál rajta badsector-t, akkor megint besárgul.

Ezen nincs LCD kijelző? A mienk csinált ilyet, meg kiírt egy hexa kódot. Gugli megmondta, hogy vagy a disk hibás, vagy a RAID vezérlő... hívás a Dell supportnak, fél óra múlva kinn volt egy csóka és kicserélte a vezérlőt :) Ő nézegette a logokat, minket nem érdekelt, csak az, hogy menjen. Azóta is megy.

Köszönöm a linket!
Nálam a hibakód: zöld - sárga - kikapcsol


Condition                |  Drive-Status Indicator Pattern
-------------------------+---------------------------------
Drive predicted failure  |  Blinks green, amber, and off.

Ha jól értelmezem ez "Meghajtó hiba előrejelzés"-ét jelenti?

húzd ki , tegyél bele másikat (újat), az majd zöld lesz...

Kihúzni még csak kihúzom, valószínűleg a rendszer kis is bírná, de nincs mit a helyére dugni egyelőre.

És a 3 év garanciából még egy hónap van, telefonos "beszélgetés" már volt a Dell support-tal.

Most hogy "egyre többet" tudok meg a hiba kideríthetőségének mikéntjéről így bejelentem aztán majd kijön valaki Szegedre és cseréli amit ki kell cserélni.

Amikor telefonon beszélgettünk RAID logokat kértek.

Köteles vagyok a kért logokat elküldeni, vagy elég ha a villogó HDD led hibakódot bemondom, mert a szerint meg fog "halni" a HDD. És amikor kijön a szervizes nyugtázza, hogy tényleg azt a hibaüzenetet "morzézi" a HDD.

http://hup.hu/node/109211#comment-1379995

Tegnap néhány sikertelen Rebuild után már Offline-ba került a hibás HDD, és este leállítottam a szervert (biztos ami biztos).

Kb. egy órája megérkezett a csere HDD.
A HDD kicserélve, szerver elindítva, majd a RAID BIOS-ba belépve a "PD Mgmt" lapon a még Offline-ban lévő új HDD-nél "Make Global HS"-t kiválasztva elindult a Rebuild (37%-on áll most).

Hálásan köszönöm mindenkinek a segítségét!