Kernel vagy HDD vagy vmi más?

Fórumok

Sziasztok!

Egy igen érdekes problémám van, és nem tudom eldöntnei, hogy minek van baja... Ez ügyben kérném a segítségeteket!

A probléma az, hogy a gép hetente (minimum) egyszer leáll. Van, hogy hajnalban, van, hogy éjszaka, van, hogy napközben, tehát időponthoz (pl időzített feladathoz) nem tudom kötni.
Általában ilyenkor újraindítás segít csak, ami eléggé kellemetlen. Érdekes módon pingelni lehet ilyenkor is a gépet, de FTP-n/SSH-n belépni már nem lehet. Sima szöveges weboldalak bejönnek, de pl dinamikus (MySQL+PHP) oldalak már nem, illetve a webmin felülete sem jön be ilyenkor.

lspci kimenete:

00:00.0 Host bridge: Intel Corporation Unknown device 29c0 (rev 02)
00:02.0 VGA compatible controller: Intel Corporation Unknown device 29c2 (rev 02)
00:1c.0 PCI bridge: Intel Corporation 82801G (ICH7 Family) PCI Express Port 1 (rev 01)
00:1c.1 PCI bridge: Intel Corporation 82801G (ICH7 Family) PCI Express Port 2 (rev 01)
00:1d.0 USB Controller: Intel Corporation 82801G (ICH7 Family) USB UHCI #1 (rev 01)
00:1d.1 USB Controller: Intel Corporation 82801G (ICH7 Family) USB UHCI #2 (rev 01)
00:1d.2 USB Controller: Intel Corporation 82801G (ICH7 Family) USB UHCI #3 (rev 01)
00:1d.3 USB Controller: Intel Corporation 82801G (ICH7 Family) USB UHCI #4 (rev 01)
00:1d.7 USB Controller: Intel Corporation 82801G (ICH7 Family) USB2 EHCI Controller (rev 01)
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev e1)
00:1f.0 ISA bridge: Intel Corporation 82801GB/GR (ICH7 Family) LPC Interface Bridge (rev 01)
00:1f.1 IDE interface: Intel Corporation 82801G (ICH7 Family) IDE Controller (rev 01)
00:1f.2 IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) Serial ATA Storage Controller IDE (rev 01)
00:1f.3 SMBus: Intel Corporation 82801G (ICH7 Family) SMBus Controller (rev 01)
01:00.0 Ethernet controller: Unknown device 1969:1026 (rev b0)
03:01.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL-8169 Gigabit Ethernet (rev 10)

A vinyók (2db) típusa: WDC WD5002ABYS-0 (500 GB, SATA)

syslog hibaüzenet:

Nov 24 10:26:57 www4 kernel: raid1: sda6: rescheduling sector 61450216
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: sd 0:0:0:0: SCSI error: return code = 0x08000002
Nov 24 10:26:57 www4 kernel: sda: Current: sense key: Medium Error
Nov 24 10:26:57 www4 kernel: Additional sense: Unrecovered read error - auto reallocate failed
Nov 24 10:26:57 www4 kernel: end_request: I/O error, dev sda, sector 756968437

Nov 24 12:23:18 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 12:23:18 www4 kernel: ata1.00: tag 0 cmd 0xea Emask 0x1 stat 0x51 err 0x4 (device error)
Nov 24 12:23:18 www4 kernel: ata1: EH complete
Nov 24 12:23:18 www4 kernel: SCSI device sda: 976773168 512-byte hdwr sectors (500108 MB)
Nov 24 12:23:18 www4 kernel: sda: Write Protect is off
Nov 24 12:23:18 www4 kernel: sda: Mode Sense: 00 3a 00 00
Nov 24 12:23:18 www4 kernel: SCSI device sda: drive cache: write back
Nov 24 12:23:18 www4 kernel: SCSI device sda: 976773168 512-byte hdwr sectors (500108 MB)
Nov 24 12:23:18 www4 kernel: sda: Write Protect is off
Nov 24 12:23:18 www4 kernel: sda: Mode Sense: 00 3a 00 00
Nov 24 12:23:18 www4 kernel: SCSI device sda: drive cache: write back
Nov 24 12:23:25 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 12:23:25 www4 kernel: ata1.00: tag 0 cmd 0xea Emask 0x1 stat 0x51 err 0x4 (device error)
Nov 24 12:23:25 www4 kernel: ata1: EH complete
Nov 24 12:23:32 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 12:23:32 www4 kernel: ata1.00: tag 0 cmd 0xea Emask 0x1 stat 0x51 err 0x4 (device error)
Nov 24 12:23:32 www4 kernel: ata1: EH complete
Nov 24 12:23:32 www4 kernel: SCSI device sda: 976773168 512-byte hdwr sectors (500108 MB)
Nov 24 12:23:32 www4 kernel: sda: Write Protect is off
Nov 24 12:23:32 www4 kernel: sda: Mode Sense: 00 3a 00 00
Nov 24 12:23:32 www4 kernel: SCSI device sda: drive cache: write back
Nov 24 12:23:32 www4 kernel: SCSI device sda: 976773168 512-byte hdwr sectors (500108 MB)
Nov 24 12:23:32 www4 kernel: sda: Write Protect is off
Nov 24 12:23:32 www4 kernel: sda: Mode Sense: 00 3a 00 00
Nov 24 12:23:32 www4 kernel: SCSI device sda: drive cache: write back

Van esetleg valakinek ötelete, hogy mi lehet a probléma? Mit kellene kipróbálni, cserélni, miegymás?

Hozzászólások

Próbáltam utána olvasgatni a problémának, itt a HUP-on is volt már ilyen kérdés. Másnál is jelentkezett már ilyen hiba, de sajnos egyikből sem sikerült rájönnöm, hogy nálam mi lehet! Van aki azt mondta simán túlmelegszik a proci, volt aki a SATA vezérlőt okolta, volt aki a vinyót, volt aki a kernelt...
De ugye ez egy szerverhotelben lévő, egyébként kb 1 hónapos gép, ami tőlem 200km-re van. Ha vmit esetleg cserélni kell, akkor szeretnék úgy bemenni, hogy már tudom, mi a baja.

Debian 4.0; 2.6.18-6-amd64 (SMP)

Köszönöm a válaszokat előre is!

Nov 24 10:26:57 www4 kernel: Additional sense: Unrecovered read error - auto reallocate failed
Nov 24 10:26:57 www4 kernel: end_request: I/O error, dev sda, sector 756968437

Nagyon gyanus, hogy a winch a hibas, egy SMART tesztet nyomhatnal neki (azt lehet tavolrol is :-))

Jaj! (sóhajtás)
Nehéz lett volna egy tápcserét kipróbálni?

Mint máshol említettem, a vinyókkal nem az a baj, hogy sokat fogyasztanak, hanem, hogy negatív táp is kell nekik. Azaz hiába van 450W-os táp a gépben, aminek simán kellene vinnie a 2-3 SATA vinyót, ha a -5V, illetve -12V vonalakon az a 2-3 SATA vinyó többet fogyaszt, mint amit a táp elbír.
Persze nem biztos, hogy nektek is ez volt a bajotok, de nekem egy 550W-os HKC táp megoldotta a leírtakra kísértetiesen hasonlító problémákat.

Bocsánat, ez tényleg butaság volt. Most hogy így írtad, jutott eszembe, hogy a vinyó tápba csak piros, meg sárga drót megy, és csak az alaplap kap negatív tápot.
Viszont akkor el nem tudom képzelni, hogy nekem a tápcsere miért oldotta meg a gondjaimat. Ráadásul nekem is javasolta egy ismerősöm, aki több szervert is üzemeltet, és szintén belefutott már a problémába.

www4:/var/log# smartctl -i /dev/sda
smartctl version 5.36 [x86_64-unknown-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

Device: ATA WDC WD5002ABYS-0 Version: 02.0
Serial number: WD-WCASY1589696
Device type: disk
Local Time is: Mon Nov 24 13:03:58 2008 CET
Device does not support SMART

Gondolom ez annyira nem tuti így? Vagy én rontottam el vmit?

Annak ellenére, hogy nem támogatja a SMART-ot, mégis csak sikerült vmi tesztet lefuttatni.


www4:/var/log# smartctl -d ata -a /dev/sda
smartctl version 5.36 [x86_64-unknown-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model: WDC WD5002ABYS-01B1B0
Serial Number: WD-WCASY1589696
Firmware Version: 02.03B02
User Capacity: 500.107.862.016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Mon Nov 24 13:41:39 2008 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (9480) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 112) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 163 155 021 Pre-fail Always - 4841
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 10
5 Reallocated_Sector_Ct 0x0033 194 194 140 Pre-fail Always - 48
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1629
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 9
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 10
194 Temperature_Celsius 0x0022 121 114 000 Old_age Always - 26
196 Reallocated_Event_Count 0x0032 194 194 000 Old_age Always - 6
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Mond ez vkinek vmit? Jelenleg éppen egy teljes tesztet futattok, elvileg még 112 percet kell várnom...

5 Reallocated_Sector_Ct 0x0033 194 194 140 Pre-fail Always - 48

48 hibas, de mar javitott (tartalekra atiranyitott) szektorod van -> garancias csere.

(ilyenkor ki szoktam nyomtatni a teljes SMART listat, bekarikazom a hibas parametereket, es ugy adom vissza a winchet, nagyon tudomanyosan nez ki ;-)

Érdekes! Nekem egy már hónapok óta jól működő gépem hülyéskedik (Debian Etch). A legijessztőbb hogy semmi értelmezhető nincs a logokban. A log egy bizonyos időpontban leáll és a következő bejegyzés az újraindításról szól :( Eddigi gyakorlatomban ez azt jelentette hogy kihúzták a ~230 -at. De nem még pingelni is lehet, azonban a rajta futtatott programocskák (három példány soros - ethernet illesztő, egy GPRS illesztő, egy GSM/SMS illeszt és a GSM/GPRS terminál illesztő) részben egészében lefittyednek! Nem megy az ssh - amúgy is lassú a bejelentkezés. Mivel ez is távol van, viszont van mellette egy másik gép, gondolkodom, hogy PLIP -re konzolt építek ki a kettő közé ... esetleg a logot is ide küldöm?

* Én egy indián vagyok. Minden indián hazudik.

Gyenge a tápod!
Az a vinyók érdekessége, hogy viszonylag keveset fogyasztanak (mondjuk egy procihoz képest), de nem csak egyfajta táp kell nekik, hanem +5V, +12V, -12V, meg még talán -5V is. Lehet, hogy a tápegységed bikának tűnik (mondjuk 400W), de a negatív feszültségekből valamelyiken mégsem bírja a terhelést. Ilyenkor a SATA busz összeomlik, a kernel rendszerint reszeteli is, de ha éppen swap olvasás közben történik az egész, akkor jön az a jelenség, hogy ping-elni még lehet a gépet, esetleg még tűzfalként is működik, de se SSH, se semmi nem működik már.
Vegyél egy 550-es tápot, és megoldódik minden problémád!

Filléres hiba: sata kábel. Ha mész, vigyél pár cserét. Én jártam már úgy, hogy szar gyári sata kábel okozta a hibákat. Egyszerűen az alaplaphoz kapott sata kábel 2 hónap működés után elkezdett porlani.
Mikor cseréltem, merev volt, és porlott le róla a műanyag. ránézésre nem látszott semmi.
A négy darab alaplaphoz kapott sata kábel mind selejt volt. Sima 300 ft-os piros sata kábelre cserélése után a hiba megszűnt.

---------------------------------------------------------------------------------
A Linux nem ingyenes. Meg kell fizetni a tanulópénzt.
Az emberek 66 százaléka nem tud számolni! Gondoljatok bele, ez majdnem a fele!!

Amit még elfelejtettem mondani, hogy a RAID tömbök is állandóan szétesnek. Most is épp az egyiket építem vissza. Ilyenkor mire újraszinkronizálom, addigra szétesik másik kettő... Szoftveres RAID1!
Tehát valami nagyon nem tuti ezzel a géppel! :S

Nekem hasonló jelenségek voltak, és mint kiderült az alaplap-processzor kombó volt a hunyó. Megpróbáltam kernelt forgatni rajta amire azt mondta, hogy CPU fault.

Egyébként érdemes lehet megnézni a kábeleket, mert a libata egy korábbi verziójában volt valami olyan problémám (semmi konkrét), hogy nem tudott értelmes timeoutot adni és ezért 100%ra futott a CPU.

Ezek mind csak tippek, ezért ne dobj ki semmit, de hátha segít.

Ez most elgondolkodtatott egy kicsit....
Nem tudom már melyik gépünknél, de vmelyik bootolás után kiírja, hogy milyen proci van benne. Felismeri és működik rendesen, de kiírja, hogy unsupported CPU...
Most az jutott eszembe, hogy nem-e pont ez az a gép... Na ennek vhogy megpróbálok majd utána járni!

köszönöm a hozzászólásokat! Annyi azóta, hogy semmit... Tehát egyszer csak magától eltűnt a probléma, remélem többet nem jön elő!

Kopp, kopp, kopp....