[megoldva] Company Smart Array P410 vs Debian

Fórumok

Hozzászólások

Nekem több Debianom (Lenny) is fut cciss-sel p410-en. Soha nem láttam hibát. A logod meg "Physical Drive Errort ír".

-------------------------
E-learning szolgáltatások nyílt alapokon
Weblap és Bemutató rendszer

Ezt mondja:


Smart Array P410 in Slot 4
Bus Interface: PCI
Slot: 4
Serial Number: PACCR9SYP7ZM
RAID 6 (ADG) Status: Disabled
Controller Status: OK
Chassis Slot:
Hardware Revision: Rev C
Firmware Version: 2.74
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Post Prompt Timeout: 0 secs
Cache Board Present: False
Drive Write Cache: Disabled
SATA NCQ Supported: True

Array: A
Interface Type: SATA
Unused Space: 0 MB
Status: OK

Logical Drive: 1
Size: 465.7 GB
Fault Tolerance: RAID 1
Heads: 255
Sectors Per Track: 32
Cylinders: 65535
Stripe Size: 128 KB
Status: OK
Array Accelerator: Disabled
Unique Identifier: 600508B100105239535950375A4D0300
Disk Name: /dev/cciss/c0d0
Mount Points: /boot 188 MB, / 9.3 GB, /var 9.3 GB, none 3.7 GB, /opt 372.5 GB
Logical Drive Label: A050A907PACCR9SYP7ZM544D
Mirror Group 0:
physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 500 GB, OK)
Mirror Group 1:
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 500 GB, OK)

physicaldrive 1I:1:1
Port: 1I
Box: 1
Bay: 1
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 500 GB
Firmware Revision: 1AJ10001
Serial Number: S20BJ90Z953208
Model: ATA SAMSUNG HD502HJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPS
physicaldrive 1I:1:2
Port: 1I
Box: 1
Bay: 2
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 500 GB
Firmware Revision: 1AJ10001
Serial Number: S20BJ90Z953203
Model: ATA SAMSUNG HD502HJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPS

Array: B
Interface Type: SATA
Unused Space: 0 MB
Status: OK

Logical Drive: 2
Size: 931.5 GB
Fault Tolerance: RAID 1
Heads: 255
Sectors Per Track: 32
Cylinders: 65535
Stripe Size: 128 KB
Status: OK
Array Accelerator: Disabled
Unique Identifier: 600508B100105239535950375A4D0400
Disk Name: /dev/cciss/c0d1
Mount Points: None
Logical Drive Label: A050B9CCPACCR9SYP7ZM6362
Mirror Group 0:
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 1TB, OK)
Mirror Group 1:
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 1TB, OK)

physicaldrive 1I:1:3
Port: 1I
Box: 1
Bay: 3
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 1TB
Firmware Revision: 1AJ10001
Serial Number: S246J9EZ904141
Model: ATA SAMSUNG HD103SJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPS
physicaldrive 1I:1:4
Port: 1I
Box: 1
Bay: 4
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 1TB
Firmware Revision: 1AJ10001
Serial Number: S246J9EZ904131
Model: ATA SAMSUNG HD103SJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPS

samsung.
Tökéletes választás volt.
Így most nem is értem, miért nem érted.

tippelek, de szerintem nem raktad fel a legutolsó fw upgradet (support.hp.com). érdemes.
dugd össze az ILO-t is, így a megakadt szervernek a képét is láthatod (főleg, ha az ASR-t kikapcsolod :-)

btw, a P410, zero-memory-val, hát... érdemes lenne legalább a 256M BBWC modult megvenni ~30e árban.
durván sokat tud nyújtani a battery backed write cache

Valszin a drbd-nél a diszkek write kessére gondoltak, ami egy jó gondolat, de szerintem borzalmasan lassít. A probléma az, hogy áramszünet esetén (ami hostingban azért ritka) vagy géphalálkor egy inkonziztens állapotra elég nagy esély lesz a diszken. Az OS ugyanis azt hiszi, hogy kiírta a diszkre a cuccot, de közben meg még kessben csücsül. Ez ellen csak valamennyire véd ha mondjuk journal módban csatolsz egy filerendszert.

A hw raid vezérlőkön levő cache viszont saját kis elemmel védett és ha elmegy az áram, akkor rebootkor még tud egy flush cache-t csinálni. Tudomásom szerint a hw raid kártyák egyébként ki is kapcsolják a diszkeken a write cache-t, ezért is kerül a jobbakra már elég masszív (256MB-1GB vagy több) cache.

Esélyes, hogy kikapcsolják illetve - specifikusan a HP P4-6-800 esetében (ami már SATA) BE is lehet kapcsolni a drive write cache-t, de külön felhívja a figyelmedet arra, hogy ezt csak akkor tedd meg, ha van UPS, ami shutdown-t is csinál, ellenkező esetben garantált az adatvesztés.

Specifikusan DRBD esetén én inkább használnék 4-6 (esetleg 8) lemezt raid10-ben mint 2-2 db-t tükörben. (persze kérdés, hogy mire használod a DRBD-t, de gondolom szolgáltatás fut rajta :-)

Pedig a P410i csak integrált. :) Minden esetre gondolom van fejlesztési terv és nem a világ végéig fognak ugyanezek a vinyók menni, tehát be lehet későbbre tervezni upgrade-et.

Szerk: Néha az occó megoldásokba belementem énis, aztán jöttek a fentihez hasonló bökkenők. Aztán elegünk lett és érdekes módon az enterspájz cuccokkal gyakorlatilag nincs gondunk és még jobban is lehet hajtani őket.

Fejlesztési terv... az nincsen. A vasak egyébként tapasztalat hiányában kb. hasraütésszerűen lettek választva (ML150-el van némi tapasztalatunk, G2-esek is elbírták a terhelést, csak olyat már nem tudtunk újonnan beszerezni). Adott volt, hogy mekkora tárkapacitás kell és a 3db vasra elkölthető keret. Jelen teljesítményük a vasaknak elegendő lenne, ha nem állnának le véletlenszerűen.

Sajnos a firmware upgrade óta még rosszabb a helyzet, 3naponta megállnak a vasak, folyton reseteltetni kell őket. Megnéztem a HP Midline-t, ez a vinyó és ez lenne, ami árban nincs elszállva? 0sszegezve mondjuk a három gépre kb. 960678Ft-t kellene költeni, hogy üzembiztosak legyenek?
Esetleg ilyen félével mernék belevágni a samsungok lecserélésébe "HPQ 3.5" HDD SATA-II 1TB 7200rpm 3.0Gb/s, 8MB Cache NCQ", vagy ennek nincs értelme?

Mindegyik szerveren megcsináltam az upgrade-t ezzel CP014169.scexe és újra is indítottam őket. Ha legközelebb bármelyik lehal mindenképp jelentkezem. Az iLO-t egyelőre nem tudom kipróbálni, mert a bios-ban nem néztem utána így még abban sem vagyok biztos, hogy a vasak tudnak-e ilyet.

Próbáltam a HPONCFG-t feltenni. Nem igazán sikerült, mivel a csomag a hp-health-tól függ, az viszont ezt írja:


Selecting previously deselected package hp-health.
(Reading database ... 55250 files and directories currently installed.)
Unpacking hp-health (from .../hp-health_8.5.0.1.2-1_i386.deb) ...
Setting up hp-health (8.5.0.1.2-1) ...
ERROR: This Server is NOT Supported!
Error: No supported management controller found
invoke-rc.d: initscript hp-health, action "start" failed.

Ha megerőltetem és mégis felrakom, akkor ezt mondja:


# hponcfg
HPONCFG RILOE II/iLO setup and configuration utility
Version 3.1.0 (c) Hewlett-Packard Company, 2010

ERROR: Could not find the iLO/RILOE-II Device Node.
Please check if the iLO driver module is installed and running properly.
ACTION REQUIRED: Install/Re-install hp Lights-Out driver package('hp-ilo' RPM) for iLO.

Valamit biztos kihagytam, ezzel próbálkoztam ahova innen jutottam.

Sokat szívtam Samsung vinyókkal (F3EG, F4EG) a hibás NCQ kezelés miatt. Ez csak nagyobb terhelésnél jött elő és nem is mindig, de időről időre megjelent újra.
Létezik ehhez a típushoz (F3) is FW patch.

Ezt fel kell tolni rájuk (mindegyikre) DOS-ból (USB drive, CD, floppy :) lehetőleg egy egyszerű PC-n indítva.

A RAID upgrade is erősen javasolt, sőt kötelező, 3.52-nél ez olvasható a HP support oldalain:

Fixes:

Fix for an incomplete or problematic data transfer issue on RAID 0 or RAID 1 volumes, which may occur under heavy I/O workloads. This issue may happen when array accelerator cache-bypassed write operations take place on a common small Logical Block Addressing (LBA) region on the drive, following multiple discontinuous non-overlapping cached writes.

illetve:

Fix to resolve the rare potential for a data transfer from an incorrect host memory address. This issue is associated with read or write operations that span 8 GB (or higher) address boundaries in non-Windows OS using Physical Address Extensions.

Kezdd amelyikkel gondolod, én a helyedben mindegyiket upgradelném egyiket a negatív tapasztalatok, másikat a support oldalon található infók miatt.

Ez is lehet. S.M.A.R.T-értékeket nem sikerült a vinyókról kapnom ('smartctl -d cciss,X -a /dev/cciss/c0d0'-vel próbálkoztam). Még nem tudom hogyan lehetne megtudni, hogy ezek CCTL-esek, esetleg valahogy állítgatni rajtuk. Próbálok utánanézni.

$ ./smartctl -d cciss,3 -a /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Logical block size: 512 bytes
Logical Unit id: 0x50024e92034a4311
Serial number: S246J9EZ904131
Device type: disk
Local Time is: Mon May 2 16:08:48 2011 CEST
Device supports SMART and is Disabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get it

Error Counter logging not supported
Device does not support Self Test logging

Sajnos elég furán reagál rá, még az addigi infót (serial, valódi méret) is elrejti.

# ./smartctl -d cciss,1 -a /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

User Capacity: 500,107,862,016 bytes [500 GB]
Logical block size: 512 bytes
Logical Unit id: 0x50024e9203696edd
Serial number: S20BJ90Z953203
Device type: disk
Local Time is: Mon May 9 12:35:19 2011 CEST
Device supports SMART and is Disabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get it

Error Counter logging not supported
Device does not support Self Test logging
# ./smartctl -d cciss,1 --smart=on /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Informational Exceptions (SMART) disabled
Temperature warning disabled
# ./smartctl -d cciss,1 -a /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

User Capacity: 2,199,023,255,552 bytes [2.19 TB]
Logical block size: 512 bytes
Serial number:
Device type: disk
Local Time is: Mon May 9 12:35:29 2011 CEST
Device supports SMART and is Disabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get it

Error Counter logging not supported
Device does not support Self Test logging

Köszönöm mindenkinek az ötleteit, sajnos a milliós HDD upgrade-n kívüli próbálkozásaim nem vezettek eredményre, ezért felindulásból a P410-es vezérlőket kiszereltük a szerverekből és a RAID1-ekből 1-1db HDD-t megtartva az alaplapra kötöttük őket. Azóta a SMART olvasható és semmilyen hibát nem ír a HDD-knél, igaz még csak két hét telt el.

Konlkúzió: A RAID-vezérlő immunrendszere kifogott a barkács-megoldáson.

Konklúziónak inkább azt vonnám le, hogy a P410-es vezérlő nem működik jól a Samsung desktop vinyókkal.
(WD SATA és Seagate SAS vinyókkal biztosan jól megy, a HP hotswap vinyókról nem is beszélve).

Btw: ha kiszámolod, hogy a p410 (új) ára simán magasabb mint 8db 1T WD1003FBYX, így nem teljesen értem a logikát
miért inkább a vezérlőt hajítod a vinyók helyett (amiket egy desktop gépben vígan használhatnál)

exim[30154]: 2011-04-22 08:59:33 Cannot open main log file "/var/log/exim4/mainlog": Read-only file system: euid=0 egid=108
exim[30154]: exim: could not open panic log - aborting: see message(s) above
[4465698.343391] end_request: I/O error, dev cciss/c0d0, sector 18946712
[4465698.343498] end_request: I/O error, dev cciss/c0d0, sector 18946712
<---
ilyenekkel egy hibás scsi vezérlő boldogított...

Cimborám hasonlóval küzd egy ML150 G6-on, csak Windows alatt (de szerintem ez a probléma szempontjából irreleváns)

2xHP SAS disk RAID1-ben: system
2xWD Green SATA disk RAID1-ben: adat

A SATA-kból álló RAID-et időnként hw szinten dobja a rendszer.
A gép firmware (BIOS, Array controller[P410]) frissítésein túl vagyunk, de a WD winyókhoz nem találunk frisebb fw-t (egyáltalán semmilyet)

Okozhatja a problémát a vegyes SAS SATA környezet egy bay-ben, vagy esetleg a nem HP SAS a probléma önmagában?

THX!

--
e0:deb