- 8218 megtekintés
Hozzászólások
Nekem több Debianom (Lenny) is fut cciss-sel p410-en. Soha nem láttam hibát. A logod meg "Physical Drive Errort ír".
-------------------------
E-learning szolgáltatások nyílt alapokon
Weblap és Bemutató rendszer
- A hozzászóláshoz be kell jelentkezni
A vinyóknál lévő számok HD502HJ: 4228, 3906, 4518, 4102, 1550, 4770. HD103SJ: 5544, 6357, 2106, 4110, 6757, 4315. Emiatt nekem nem igazán látszik annak, ami a neve.
- A hozzászóláshoz be kell jelentkezni
A hpacucli mit mond ha ezt mondod neki: ctrl all show config detail ?
- A hozzászóláshoz be kell jelentkezni
Ezt mondja:
Smart Array P410 in Slot 4
Bus Interface: PCI
Slot: 4
Serial Number: PACCR9SYP7ZM
RAID 6 (ADG) Status: Disabled
Controller Status: OK
Chassis Slot:
Hardware Revision: Rev C
Firmware Version: 2.74
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Post Prompt Timeout: 0 secs
Cache Board Present: False
Drive Write Cache: Disabled
SATA NCQ Supported: TrueArray: A
Interface Type: SATA
Unused Space: 0 MB
Status: OKLogical Drive: 1
Size: 465.7 GB
Fault Tolerance: RAID 1
Heads: 255
Sectors Per Track: 32
Cylinders: 65535
Stripe Size: 128 KB
Status: OK
Array Accelerator: Disabled
Unique Identifier: 600508B100105239535950375A4D0300
Disk Name: /dev/cciss/c0d0
Mount Points: /boot 188 MB, / 9.3 GB, /var 9.3 GB, none 3.7 GB, /opt 372.5 GB
Logical Drive Label: A050A907PACCR9SYP7ZM544D
Mirror Group 0:
physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 500 GB, OK)
Mirror Group 1:
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 500 GB, OK)physicaldrive 1I:1:1
Port: 1I
Box: 1
Bay: 1
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 500 GB
Firmware Revision: 1AJ10001
Serial Number: S20BJ90Z953208
Model: ATA SAMSUNG HD502HJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPS
physicaldrive 1I:1:2
Port: 1I
Box: 1
Bay: 2
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 500 GB
Firmware Revision: 1AJ10001
Serial Number: S20BJ90Z953203
Model: ATA SAMSUNG HD502HJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPSArray: B
Interface Type: SATA
Unused Space: 0 MB
Status: OKLogical Drive: 2
Size: 931.5 GB
Fault Tolerance: RAID 1
Heads: 255
Sectors Per Track: 32
Cylinders: 65535
Stripe Size: 128 KB
Status: OK
Array Accelerator: Disabled
Unique Identifier: 600508B100105239535950375A4D0400
Disk Name: /dev/cciss/c0d1
Mount Points: None
Logical Drive Label: A050B9CCPACCR9SYP7ZM6362
Mirror Group 0:
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 1TB, OK)
Mirror Group 1:
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 1TB, OK)physicaldrive 1I:1:3
Port: 1I
Box: 1
Bay: 3
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 1TB
Firmware Revision: 1AJ10001
Serial Number: S246J9EZ904141
Model: ATA SAMSUNG HD103SJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPS
physicaldrive 1I:1:4
Port: 1I
Box: 1
Bay: 4
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 1TB
Firmware Revision: 1AJ10001
Serial Number: S246J9EZ904131
Model: ATA SAMSUNG HD103SJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPS
- A hozzászóláshoz be kell jelentkezni
Hát akkor nincs más hátra mint próba az fw upgrade-el.
- A hozzászóláshoz be kell jelentkezni
Köszönöm, rajta leszek!
- A hozzászóláshoz be kell jelentkezni
Még 1. A HP saját firmware-t húz a HDD-ire. Én még sosem használtam nem HP winyóval.
-------------------------
E-learning szolgáltatások nyílt alapokon
Weblap és Bemutató rendszer
- A hozzászóláshoz be kell jelentkezni
a HP a saját FW-vel bizonyos dolgokban többet tud(hat), pl pre-failure (azaz a hiba megjelenése előtt szól. még smart előtt)
- A hozzászóláshoz be kell jelentkezni
+1
dögivel használunk P410-eket, (kártyát is, meg integráltat is) és soha semmi bajunk nem volt velük...
tény viszont, hogy mindenhol van BBWC.
... no, és SAS diszkek vannak...
- A hozzászóláshoz be kell jelentkezni
samsung.
Tökéletes választás volt.
Így most nem is értem, miért nem érted.
- A hozzászóláshoz be kell jelentkezni
:)
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
tippelek, de szerintem nem raktad fel a legutolsó fw upgradet (support.hp.com). érdemes.
dugd össze az ILO-t is, így a megakadt szervernek a képét is láthatod (főleg, ha az ASR-t kikapcsolod :-)
btw, a P410, zero-memory-val, hát... érdemes lenne legalább a 256M BBWC modult megvenni ~30e árban.
durván sokat tud nyújtani a battery backed write cache
- A hozzászóláshoz be kell jelentkezni
Jó a tipp, valóban nem tettem fel upgrade-t, ki fogom próbálni. Az ILO-hoz igazán nem szagoltam eddig, utánaolvasok.
A zero memory azért van, mert drbd-s fs van két gép között és valahol azt olvastam, hogy úgyis ki kellene kapcsolni a write cache-t ha lenne.
- A hozzászóláshoz be kell jelentkezni
Ez a write cache nem az a write cache. :) Minden esetre olvasásban is igen sokat segít, mert még olyat is lehet SmartArraynek mondani hogy 100%-osan csak read cache legyen.
- A hozzászóláshoz be kell jelentkezni
hoppá... %-P
- A hozzászóláshoz be kell jelentkezni
Valszin a drbd-nél a diszkek write kessére gondoltak, ami egy jó gondolat, de szerintem borzalmasan lassít. A probléma az, hogy áramszünet esetén (ami hostingban azért ritka) vagy géphalálkor egy inkonziztens állapotra elég nagy esély lesz a diszken. Az OS ugyanis azt hiszi, hogy kiírta a diszkre a cuccot, de közben meg még kessben csücsül. Ez ellen csak valamennyire véd ha mondjuk journal módban csatolsz egy filerendszert.
A hw raid vezérlőkön levő cache viszont saját kis elemmel védett és ha elmegy az áram, akkor rebootkor még tud egy flush cache-t csinálni. Tudomásom szerint a hw raid kártyák egyébként ki is kapcsolják a diszkeken a write cache-t, ezért is kerül a jobbakra már elég masszív (256MB-1GB vagy több) cache.
- A hozzászóláshoz be kell jelentkezni
Esélyes, hogy kikapcsolják illetve - specifikusan a HP P4-6-800 esetében (ami már SATA) BE is lehet kapcsolni a drive write cache-t, de külön felhívja a figyelmedet arra, hogy ezt csak akkor tedd meg, ha van UPS, ami shutdown-t is csinál, ellenkező esetben garantált az adatvesztés.
Specifikusan DRBD esetén én inkább használnék 4-6 (esetleg 8) lemezt raid10-ben mint 2-2 db-t tükörben. (persze kérdés, hogy mire használod a DRBD-t, de gondolom szolgáltatás fut rajta :-)
- A hozzászóláshoz be kell jelentkezni
Két gépen postgres-data és postgres-wal van szétválasztva a két drbd eszközre (a data az 1T-s, a wal az 500G-s RAID1 eszközön van).
- A hozzászóláshoz be kell jelentkezni
99% h jobban járnál 4db uolyan diskkel, esetleg javasolnám inkább vagy a HP midline diszkeket (~60-65e+áfa/db) ha nagy kapacitást akarsz (esetleg pl Seagate 7200 SAS disk), vagy legalább a WD 64mbyte cache-el szállított Raid Edition szériát.
- A hozzászóláshoz be kell jelentkezni
Sajnos a hardver-összetételen jelenleg nem tudok módosítani, gyakorlatilag "adott". Mivel összesen 12db HDD-re volt szükség, itt a RAID-ben az "I" inexpensive-t jelent :-/
- A hozzászóláshoz be kell jelentkezni
Pedig a P410i csak integrált. :) Minden esetre gondolom van fejlesztési terv és nem a világ végéig fognak ugyanezek a vinyók menni, tehát be lehet későbbre tervezni upgrade-et.
Szerk: Néha az occó megoldásokba belementem énis, aztán jöttek a fentihez hasonló bökkenők. Aztán elegünk lett és érdekes módon az enterspájz cuccokkal gyakorlatilag nincs gondunk és még jobban is lehet hajtani őket.
- A hozzászóláshoz be kell jelentkezni
Fejlesztési terv... az nincsen. A vasak egyébként tapasztalat hiányában kb. hasraütésszerűen lettek választva (ML150-el van némi tapasztalatunk, G2-esek is elbírták a terhelést, csak olyat már nem tudtunk újonnan beszerezni). Adott volt, hogy mekkora tárkapacitás kell és a 3db vasra elkölthető keret. Jelen teljesítményük a vasaknak elegendő lenne, ha nem állnának le véletlenszerűen.
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
Valamiért külön eszközre akartuk, hogy kerüljön a postgres és a postgres-wal, ez az ok.
- A hozzászóláshoz be kell jelentkezni
Én a SAS-t javasolnám Seagate-éktől (7200rpm constellation szinten). Ha már enterspájz diszk és ott a SAS vezérlő, akkor egy 256MB bbwc upgrade-el egybekötött SAS vinyóra upgrade-et is megejtenék. Tudom, hogy ez nem filléres dolog, de a minőségnek ára van.
- A hozzászóláshoz be kell jelentkezni
Igen, ezek is jók. Árban a HP Midline sincsen elszállva (azok asszem szintén SAS felületű - belül SATA - diskek)
- A hozzászóláshoz be kell jelentkezni
Sajnos a firmware upgrade óta még rosszabb a helyzet, 3naponta megállnak a vasak, folyton reseteltetni kell őket. Megnéztem a HP Midline-t, ez a vinyó és ez lenne, ami árban nincs elszállva? 0sszegezve mondjuk a három gépre kb. 960678Ft-t kellene költeni, hogy üzembiztosak legyenek?
Esetleg ilyen félével mernék belevágni a samsungok lecserélésébe "HPQ 3.5" HDD SATA-II 1TB 7200rpm 3.0Gb/s, 8MB Cache NCQ", vagy ennek nincs értelme?
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
+1 a SAS-nak.
- A hozzászóláshoz be kell jelentkezni
Köszönöm az infót! Ha a SAS-al számolok, akkor olyan ár jön ki a 12db vinyóra, mint amennyi a teljes klaszterre volt összesen. Sajnos ilyen cserét biztosan nem tudok keresztülvinni :(
- A hozzászóláshoz be kell jelentkezni
félreérthettél vmit, pedig odaírtam a PN-eket. A két vinyó között minimális eltérés van árban (kevesebb mint 10%). Az egyik SATA kívűl belül, amíg a másik kívűlre SAS (és belül SATA).
- A hozzászóláshoz be kell jelentkezni
Az a SAS vinyó kívül belül SAS, legfeljebb a mechanika egyezik. A SAS előnye (a raid vezérlőt tekintve), hogy 6Gbps ÉS full duplexen működik. Ezen kívül még a command set is enterspájzabb kicsit.
- A hozzászóláshoz be kell jelentkezni
nem kételkedek ebben, de azért a 7200rpm, 1T SAS csatolós (midline) vinyó nem egyezik meg
a 10-15k rpm, (jelenleg max) 450G (esetleg 600G?) SAS vinyókkal.
Sem tudásban, sem árban - de mindenképpen felette áll a normál SATA vinyóknak.
- A hozzászóláshoz be kell jelentkezni
Mindegyik szerveren megcsináltam az upgrade-t ezzel CP014169.scexe és újra is indítottam őket. Ha legközelebb bármelyik lehal mindenképp jelentkezem. Az iLO-t egyelőre nem tudom kipróbálni, mert a bios-ban nem néztem utána így még abban sem vagyok biztos, hogy a vasak tudnak-e ilyet.
- A hozzászóláshoz be kell jelentkezni
tudnak. hponcfg-vel beállíthatod az ipcímet (default dhcp), a dobozon fityegő fecnin a user/pass - de külön eth kábel kell neki :-)
- A hozzászóláshoz be kell jelentkezni
Próbáltam a HPONCFG-t feltenni. Nem igazán sikerült, mivel a csomag a hp-health-tól függ, az viszont ezt írja:
Selecting previously deselected package hp-health.
(Reading database ... 55250 files and directories currently installed.)
Unpacking hp-health (from .../hp-health_8.5.0.1.2-1_i386.deb) ...
Setting up hp-health (8.5.0.1.2-1) ...
ERROR: This Server is NOT Supported!
Error: No supported management controller found
invoke-rc.d: initscript hp-health, action "start" failed.
Ha megerőltetem és mégis felrakom, akkor ezt mondja:
# hponcfg
HPONCFG RILOE II/iLO setup and configuration utility
Version 3.1.0 (c) Hewlett-Packard Company, 2010ERROR: Could not find the iLO/RILOE-II Device Node.
Please check if the iLO driver module is installed and running properly.
ACTION REQUIRED: Install/Re-install hp Lights-Out driver package('hp-ilo' RPM) for iLO.
Valamit biztos kihagytam, ezzel próbálkoztam ahova innen jutottam.
- A hozzászóláshoz be kell jelentkezni
bocs, igazad van, én néztem el (vmiért ML 350-et olvastam). Ebben olyan ILO van amivel a képet át tudod venni, és státuszt ott megnézni, de a HP Linuxos cuccait nem támogatják (viszont az ILO advanced kódot megeszi).
- A hozzászóláshoz be kell jelentkezni
Sokat szívtam Samsung vinyókkal (F3EG, F4EG) a hibás NCQ kezelés miatt. Ez csak nagyobb terhelésnél jött elő és nem is mindig, de időről időre megjelent újra.
Létezik ehhez a típushoz (F3) is FW patch.
Ezt fel kell tolni rájuk (mindegyikre) DOS-ból (USB drive, CD, floppy :) lehetőleg egy egyszerű PC-n indítva.
A RAID upgrade is erősen javasolt, sőt kötelező, 3.52-nél ez olvasható a HP support oldalain:
Fixes:
Fix for an incomplete or problematic data transfer issue on RAID 0 or RAID 1 volumes, which may occur under heavy I/O workloads. This issue may happen when array accelerator cache-bypassed write operations take place on a common small Logical Block Addressing (LBA) region on the drive, following multiple discontinuous non-overlapping cached writes.
illetve:
Fix to resolve the rare potential for a data transfer from an incorrect host memory address. This issue is associated with read or write operations that span 8 GB (or higher) address boundaries in non-Windows OS using Physical Address Extensions.
Kezdd amelyikkel gondolod, én a helyedben mindegyiket upgradelném egyiket a negatív tapasztalatok, másikat a support oldalon található infók miatt.
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery#Overview
Nem lehet, hogy ilyenbe futsz bele?
- A hozzászóláshoz be kell jelentkezni
Ez is lehet. S.M.A.R.T-értékeket nem sikerült a vinyókról kapnom ('smartctl -d cciss,X -a /dev/cciss/c0d0'-vel próbálkoztam). Még nem tudom hogyan lehetne megtudni, hogy ezek CCTL-esek, esetleg valahogy állítgatni rajtuk. Próbálok utánanézni.
$ ./smartctl -d cciss,3 -a /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.netUser Capacity: 1,000,204,886,016 bytes [1.00 TB]
Logical block size: 512 bytes
Logical Unit id: 0x50024e92034a4311
Serial number: S246J9EZ904131
Device type: disk
Local Time is: Mon May 2 16:08:48 2011 CEST
Device supports SMART and is Disabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get itError Counter logging not supported
Device does not support Self Test logging
- A hozzászóláshoz be kell jelentkezni
"Device supports SMART and is Disabled"
Kapcsold be a smartot. :)
- A hozzászóláshoz be kell jelentkezni
Sajnos elég furán reagál rá, még az addigi infót (serial, valódi méret) is elrejti.
# ./smartctl -d cciss,1 -a /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.netUser Capacity: 500,107,862,016 bytes [500 GB]
Logical block size: 512 bytes
Logical Unit id: 0x50024e9203696edd
Serial number: S20BJ90Z953203
Device type: disk
Local Time is: Mon May 9 12:35:19 2011 CEST
Device supports SMART and is Disabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get itError Counter logging not supported
Device does not support Self Test logging
# ./smartctl -d cciss,1 --smart=on /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.netInformational Exceptions (SMART) disabled
Temperature warning disabled
# ./smartctl -d cciss,1 -a /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.netUser Capacity: 2,199,023,255,552 bytes [2.19 TB]
Logical block size: 512 bytes
Serial number:
Device type: disk
Local Time is: Mon May 9 12:35:29 2011 CEST
Device supports SMART and is Disabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get itError Counter logging not supported
Device does not support Self Test logging
- A hozzászóláshoz be kell jelentkezni
Hmhm, igen ez előfordult már nem "enterspájz" vinyóval. Ezzel sokkal többet nem tudsz tenni valszin.
- A hozzászóláshoz be kell jelentkezni
Köszönöm mindenkinek az ötleteit, sajnos a milliós HDD upgrade-n kívüli próbálkozásaim nem vezettek eredményre, ezért felindulásból a P410-es vezérlőket kiszereltük a szerverekből és a RAID1-ekből 1-1db HDD-t megtartva az alaplapra kötöttük őket. Azóta a SMART olvasható és semmilyen hibát nem ír a HDD-knél, igaz még csak két hét telt el.
Konlkúzió: A RAID-vezérlő immunrendszere kifogott a barkács-megoldáson.
- A hozzászóláshoz be kell jelentkezni
Konklúziónak inkább azt vonnám le, hogy a P410-es vezérlő nem működik jól a Samsung desktop vinyókkal.
(WD SATA és Seagate SAS vinyókkal biztosan jól megy, a HP hotswap vinyókról nem is beszélve).
Btw: ha kiszámolod, hogy a p410 (új) ára simán magasabb mint 8db 1T WD1003FBYX, így nem teljesen értem a logikát
miért inkább a vezérlőt hajítod a vinyók helyett (amiket egy desktop gépben vígan használhatnál)
- A hozzászóláshoz be kell jelentkezni
Azért dobtam a vezérlőt a többi megoldás helyett, mert minden egyéb megoldás ehhez képest sok pénzbe került volna.
- A hozzászóláshoz be kell jelentkezni
exim[30154]: 2011-04-22 08:59:33 Cannot open main log file "/var/log/exim4/mainlog": Read-only file system: euid=0 egid=108
exim[30154]: exim: could not open panic log - aborting: see message(s) above
[4465698.343391] end_request: I/O error, dev cciss/c0d0, sector 18946712
[4465698.343498] end_request: I/O error, dev cciss/c0d0, sector 18946712
<---
ilyenekkel egy hibás scsi vezérlő boldogított...
- A hozzászóláshoz be kell jelentkezni
Cimborám hasonlóval küzd egy ML150 G6-on, csak Windows alatt (de szerintem ez a probléma szempontjából irreleváns)
2xHP SAS disk RAID1-ben: system
2xWD Green SATA disk RAID1-ben: adat
A SATA-kból álló RAID-et időnként hw szinten dobja a rendszer.
A gép firmware (BIOS, Array controller[P410]) frissítésein túl vagyunk, de a WD winyókhoz nem találunk frisebb fw-t (egyáltalán semmilyet)
Okozhatja a problémát a vegyes SAS SATA környezet egy bay-ben, vagy esetleg a nem HP SAS a probléma önmagában?
THX!
--
e0:deb
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
A nem HP SAS/SATA elvileg nem kéne gondot okozzon, viszont nekem is voltak érdekes problémáim WD Green vinyókkal. Elsőre a WD Green vinyókat cserélném Seagate-re vagy Hitachi-ra.
Ua. vezérlő simán eszi a vegyes vinyókat, de egy tömb CSAK SAS vagy SATA lehet.
- A hozzászóláshoz be kell jelentkezni
+1
konkrétan a WD firmware command timeout-ja nagyobb, mint amit a kontroller hajlandó várni a diszkre.
- A hozzászóláshoz be kell jelentkezni
sub
- A hozzászóláshoz be kell jelentkezni