Sziasztok!
Egy igen érdekes problémám van, és nem tudom eldöntnei, hogy minek van baja... Ez ügyben kérném a segítségeteket!
A probléma az, hogy a gép hetente (minimum) egyszer leáll. Van, hogy hajnalban, van, hogy éjszaka, van, hogy napközben, tehát időponthoz (pl időzített feladathoz) nem tudom kötni.
Általában ilyenkor újraindítás segít csak, ami eléggé kellemetlen. Érdekes módon pingelni lehet ilyenkor is a gépet, de FTP-n/SSH-n belépni már nem lehet. Sima szöveges weboldalak bejönnek, de pl dinamikus (MySQL+PHP) oldalak már nem, illetve a webmin felülete sem jön be ilyenkor.
lspci kimenete:
00:00.0 Host bridge: Intel Corporation Unknown device 29c0 (rev 02)
00:02.0 VGA compatible controller: Intel Corporation Unknown device 29c2 (rev 02)
00:1c.0 PCI bridge: Intel Corporation 82801G (ICH7 Family) PCI Express Port 1 (rev 01)
00:1c.1 PCI bridge: Intel Corporation 82801G (ICH7 Family) PCI Express Port 2 (rev 01)
00:1d.0 USB Controller: Intel Corporation 82801G (ICH7 Family) USB UHCI #1 (rev 01)
00:1d.1 USB Controller: Intel Corporation 82801G (ICH7 Family) USB UHCI #2 (rev 01)
00:1d.2 USB Controller: Intel Corporation 82801G (ICH7 Family) USB UHCI #3 (rev 01)
00:1d.3 USB Controller: Intel Corporation 82801G (ICH7 Family) USB UHCI #4 (rev 01)
00:1d.7 USB Controller: Intel Corporation 82801G (ICH7 Family) USB2 EHCI Controller (rev 01)
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev e1)
00:1f.0 ISA bridge: Intel Corporation 82801GB/GR (ICH7 Family) LPC Interface Bridge (rev 01)
00:1f.1 IDE interface: Intel Corporation 82801G (ICH7 Family) IDE Controller (rev 01)
00:1f.2 IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) Serial ATA Storage Controller IDE (rev 01)
00:1f.3 SMBus: Intel Corporation 82801G (ICH7 Family) SMBus Controller (rev 01)
01:00.0 Ethernet controller: Unknown device 1969:1026 (rev b0)
03:01.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL-8169 Gigabit Ethernet (rev 10)
A vinyók (2db) típusa: WDC WD5002ABYS-0 (500 GB, SATA)
syslog hibaüzenet:
Nov 24 10:26:57 www4 kernel: raid1: sda6: rescheduling sector 61450216
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: ata1: EH complete
Nov 24 10:26:57 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 10:26:57 www4 kernel: ata1.00: (BMDMA stat 0x20)
Nov 24 10:26:57 www4 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Nov 24 10:26:57 www4 kernel: sd 0:0:0:0: SCSI error: return code = 0x08000002
Nov 24 10:26:57 www4 kernel: sda: Current: sense key: Medium Error
Nov 24 10:26:57 www4 kernel: Additional sense: Unrecovered read error - auto reallocate failed
Nov 24 10:26:57 www4 kernel: end_request: I/O error, dev sda, sector 756968437
Nov 24 12:23:18 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 12:23:18 www4 kernel: ata1.00: tag 0 cmd 0xea Emask 0x1 stat 0x51 err 0x4 (device error)
Nov 24 12:23:18 www4 kernel: ata1: EH complete
Nov 24 12:23:18 www4 kernel: SCSI device sda: 976773168 512-byte hdwr sectors (500108 MB)
Nov 24 12:23:18 www4 kernel: sda: Write Protect is off
Nov 24 12:23:18 www4 kernel: sda: Mode Sense: 00 3a 00 00
Nov 24 12:23:18 www4 kernel: SCSI device sda: drive cache: write back
Nov 24 12:23:18 www4 kernel: SCSI device sda: 976773168 512-byte hdwr sectors (500108 MB)
Nov 24 12:23:18 www4 kernel: sda: Write Protect is off
Nov 24 12:23:18 www4 kernel: sda: Mode Sense: 00 3a 00 00
Nov 24 12:23:18 www4 kernel: SCSI device sda: drive cache: write back
Nov 24 12:23:25 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 12:23:25 www4 kernel: ata1.00: tag 0 cmd 0xea Emask 0x1 stat 0x51 err 0x4 (device error)
Nov 24 12:23:25 www4 kernel: ata1: EH complete
Nov 24 12:23:32 www4 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 24 12:23:32 www4 kernel: ata1.00: tag 0 cmd 0xea Emask 0x1 stat 0x51 err 0x4 (device error)
Nov 24 12:23:32 www4 kernel: ata1: EH complete
Nov 24 12:23:32 www4 kernel: SCSI device sda: 976773168 512-byte hdwr sectors (500108 MB)
Nov 24 12:23:32 www4 kernel: sda: Write Protect is off
Nov 24 12:23:32 www4 kernel: sda: Mode Sense: 00 3a 00 00
Nov 24 12:23:32 www4 kernel: SCSI device sda: drive cache: write back
Nov 24 12:23:32 www4 kernel: SCSI device sda: 976773168 512-byte hdwr sectors (500108 MB)
Nov 24 12:23:32 www4 kernel: sda: Write Protect is off
Nov 24 12:23:32 www4 kernel: sda: Mode Sense: 00 3a 00 00
Nov 24 12:23:32 www4 kernel: SCSI device sda: drive cache: write back
Van esetleg valakinek ötelete, hogy mi lehet a probléma? Mit kellene kipróbálni, cserélni, miegymás?
- 2077 megtekintés
Hozzászólások
Próbáltam utána olvasgatni a problémának, itt a HUP-on is volt már ilyen kérdés. Másnál is jelentkezett már ilyen hiba, de sajnos egyikből sem sikerült rájönnöm, hogy nálam mi lehet! Van aki azt mondta simán túlmelegszik a proci, volt aki a SATA vezérlőt okolta, volt aki a vinyót, volt aki a kernelt...
De ugye ez egy szerverhotelben lévő, egyébként kb 1 hónapos gép, ami tőlem 200km-re van. Ha vmit esetleg cserélni kell, akkor szeretnék úgy bemenni, hogy már tudom, mi a baja.
Debian 4.0; 2.6.18-6-amd64 (SMP)
Köszönöm a válaszokat előre is!
- A hozzászóláshoz be kell jelentkezni
Nekünk okozott ilyet (hasonlót) memória hiba (fél éves memók) és halt meg néhány hónapos vadiúj vinyó is. Első körben memteszt, a másodikban pedig legyen nálad cserevinyó. Ha teheted akkor ne WD-t vigyél, mert nekünk azokkal is van néha ilyen.
- A hozzászóláshoz be kell jelentkezni
RAM-ok jók, le lettek ellenőrizve. Mi pedig pont ezért vettünk WD-okat, mert nagyon dícsérték őket...
- A hozzászóláshoz be kell jelentkezni
Nov 24 10:26:57 www4 kernel: Additional sense: Unrecovered read error - auto reallocate failed
Nov 24 10:26:57 www4 kernel: end_request: I/O error, dev sda, sector 756968437
Nagyon gyanus, hogy a winch a hibas, egy SMART tesztet nyomhatnal neki (azt lehet tavolrol is :-))
- A hozzászóláshoz be kell jelentkezni
A SMART adatokban én nem nagyon szoktam bízni, de legyen. Egy próbát mindenképpen megér az ötleted, köüszönöm!
- A hozzászóláshoz be kell jelentkezni
Pedig nem rossz dolog az. Bar allitolag nem mindig jelzi a hibat, nekem eddig szerencsem volt (tobb szaz winchbol egy sem okozott meglepetest).
- A hozzászóláshoz be kell jelentkezni
nekem is van egy hasonló problémám, ping van, ssh, httpd, samba nuku. Detto 200Km a táv. Ma ment a kollégám megrugdosni a gépet. Mi speciel vinyókat már cseréltünk, most a ram jön és a sata kábelek.
Majd referálok mit sikerült kideríteni
- A hozzászóláshoz be kell jelentkezni
Nem lett meg.. gépet cseréltünk..
Hazahozzuk, és kínvallatjuk pár napot utána jelzek mi lett a vége..
- A hozzászóláshoz be kell jelentkezni
Jaj! (sóhajtás)
Nehéz lett volna egy tápcserét kipróbálni?
Mint máshol említettem, a vinyókkal nem az a baj, hogy sokat fogyasztanak, hanem, hogy negatív táp is kell nekik. Azaz hiába van 450W-os táp a gépben, aminek simán kellene vinnie a 2-3 SATA vinyót, ha a -5V, illetve -12V vonalakon az a 2-3 SATA vinyó többet fogyaszt, mint amit a táp elbír.
Persze nem biztos, hogy nektek is ez volt a bajotok, de nekem egy 550W-os HKC táp megoldotta a leírtakra kísértetiesen hasonlító problémákat.
- A hozzászóláshoz be kell jelentkezni
Fejtsd már ki bővebben, hogy szerinted mire kell a SATA-nak a negatív feszültség, mert ilyen mesét még vasárnap este sem veszek be.
A gyenge 450-es Chieftec tápról ne is beszéljünk. Azt hiszem pontozni kéne a hup-on, hogy az ilyen dolgokat ki tudjuk szűrni.
- A hozzászóláshoz be kell jelentkezni
Bocsánat, ez tényleg butaság volt. Most hogy így írtad, jutott eszembe, hogy a vinyó tápba csak piros, meg sárga drót megy, és csak az alaplap kap negatív tápot.
Viszont akkor el nem tudom képzelni, hogy nekem a tápcsere miért oldotta meg a gondjaimat. Ráadásul nekem is javasolta egy ismerősöm, aki több szervert is üzemeltet, és szintén belefutott már a problémába.
- A hozzászóláshoz be kell jelentkezni
Láttam már 5 is 400 W -ról :)
* Én egy indián vagyok. Minden indián hazudik.
- A hozzászóláshoz be kell jelentkezni
www4:/var/log# smartctl -i /dev/sda
smartctl version 5.36 [x86_64-unknown-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
Device: ATA WDC WD5002ABYS-0 Version: 02.0
Serial number: WD-WCASY1589696
Device type: disk
Local Time is: Mon Nov 24 13:03:58 2008 CET
Device does not support SMART
Gondolom ez annyira nem tuti így? Vagy én rontottam el vmit?
- A hozzászóláshoz be kell jelentkezni
Kell tamogassa (mar az 1-2 GB-s winchek is tudjak). Vagy nem volt engedelyezve, vagy hibas a winch firmware-je (nekem is csinalt ilyet egy 500 GB-s Samsung, nagyon gyorsan kicsereltettem).
- A hozzászóláshoz be kell jelentkezni
+1
De ha mégsem tudja (amit WD -ről kétlek) akkor cseréldki olyanra ami tudja.
* Én egy indián vagyok. Minden indián hazudik.
- A hozzászóláshoz be kell jelentkezni
Annak ellenére, hogy nem támogatja a SMART-ot, mégis csak sikerült vmi tesztet lefuttatni.
www4:/var/log# smartctl -d ata -a /dev/sda
smartctl version 5.36 [x86_64-unknown-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: WDC WD5002ABYS-01B1B0
Serial Number: WD-WCASY1589696
Firmware Version: 02.03B02
User Capacity: 500.107.862.016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Mon Nov 24 13:41:39 2008 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (9480) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 112) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 163 155 021 Pre-fail Always - 4841
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 10
5 Reallocated_Sector_Ct 0x0033 194 194 140 Pre-fail Always - 48
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1629
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 9
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 10
194 Temperature_Celsius 0x0022 121 114 000 Old_age Always - 26
196 Reallocated_Event_Count 0x0032 194 194 000 Old_age Always - 6
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Mond ez vkinek vmit? Jelenleg éppen egy teljes tesztet futattok, elvileg még 112 percet kell várnom...
- A hozzászóláshoz be kell jelentkezni
5 Reallocated_Sector_Ct 0x0033 194 194 140 Pre-fail Always - 48
48 hibas, de mar javitott (tartalekra atiranyitott) szektorod van -> garancias csere.
(ilyenkor ki szoktam nyomtatni a teljes SMART listat, bekarikazom a hibas parametereket, es ugy adom vissza a winchet, nagyon tudomanyosan nez ki ;-)
- A hozzászóláshoz be kell jelentkezni
+1
* Én egy indián vagyok. Minden indián hazudik.
- A hozzászóláshoz be kell jelentkezni
Érdekes! Nekem egy már hónapok óta jól működő gépem hülyéskedik (Debian Etch). A legijessztőbb hogy semmi értelmezhető nincs a logokban. A log egy bizonyos időpontban leáll és a következő bejegyzés az újraindításról szól :( Eddigi gyakorlatomban ez azt jelentette hogy kihúzták a ~230 -at. De nem még pingelni is lehet, azonban a rajta futtatott programocskák (három példány soros - ethernet illesztő, egy GPRS illesztő, egy GSM/SMS illeszt és a GSM/GPRS terminál illesztő) részben egészében lefittyednek! Nem megy az ssh - amúgy is lassú a bejelentkezés. Mivel ez is távol van, viszont van mellette egy másik gép, gondolkodom, hogy PLIP -re konzolt építek ki a kettő közé ... esetleg a logot is ide küldöm?
* Én egy indián vagyok. Minden indián hazudik.
- A hozzászóláshoz be kell jelentkezni
Gyenge a tápod!
Az a vinyók érdekessége, hogy viszonylag keveset fogyasztanak (mondjuk egy procihoz képest), de nem csak egyfajta táp kell nekik, hanem +5V, +12V, -12V, meg még talán -5V is. Lehet, hogy a tápegységed bikának tűnik (mondjuk 400W), de a negatív feszültségekből valamelyiken mégsem bírja a terhelést. Ilyenkor a SATA busz összeomlik, a kernel rendszerint reszeteli is, de ha éppen swap olvasás közben történik az egész, akkor jön az a jelenség, hogy ping-elni még lehet a gépet, esetleg még tűzfalként is működik, de se SSH, se semmi nem működik már.
Vegyél egy 550-es tápot, és megoldódik minden problémád!
- A hozzászóláshoz be kell jelentkezni
Egy 450-es Chieftech van benne, nem hiszem, hogy ezzel lenne probléma. Más gépekbe is van ilyen táp, és jóval több kütyüvel (több vinyó, brutál VGA, stb)...
Szerencsétlen gép, mármint ez, amelyik fagyogat szerintem még azt sem tudja, hogy mi az a swapolás...
- A hozzászóláshoz be kell jelentkezni
Filléres hiba: sata kábel. Ha mész, vigyél pár cserét. Én jártam már úgy, hogy szar gyári sata kábel okozta a hibákat. Egyszerűen az alaplaphoz kapott sata kábel 2 hónap működés után elkezdett porlani.
Mikor cseréltem, merev volt, és porlott le róla a műanyag. ránézésre nem látszott semmi.
A négy darab alaplaphoz kapott sata kábel mind selejt volt. Sima 300 ft-os piros sata kábelre cserélése után a hiba megszűnt.
---------------------------------------------------------------------------------
A Linux nem ingyenes. Meg kell fizetni a tanulópénzt.
Az emberek 66 százaléka nem tud számolni! Gondoljatok bele, ez majdnem a fele!!
- A hozzászóláshoz be kell jelentkezni
Biztos, ami biztos, ezt a tippet is kipróbáljuk!
- A hozzászóláshoz be kell jelentkezni
Amit még elfelejtettem mondani, hogy a RAID tömbök is állandóan szétesnek. Most is épp az egyiket építem vissza. Ilyenkor mire újraszinkronizálom, addigra szétesik másik kettő... Szoftveres RAID1!
Tehát valami nagyon nem tuti ezzel a géppel! :S
- A hozzászóláshoz be kell jelentkezni
Mondom, hogy a táp gyenge (ld. 3-mal följebb)!
- A hozzászóláshoz be kell jelentkezni
törölve
- A hozzászóláshoz be kell jelentkezni
Nekem hasonló jelenségek voltak, és mint kiderült az alaplap-processzor kombó volt a hunyó. Megpróbáltam kernelt forgatni rajta amire azt mondta, hogy CPU fault.
Egyébként érdemes lehet megnézni a kábeleket, mert a libata egy korábbi verziójában volt valami olyan problémám (semmi konkrét), hogy nem tudott értelmes timeoutot adni és ezért 100%ra futott a CPU.
Ezek mind csak tippek, ezért ne dobj ki semmit, de hátha segít.
- A hozzászóláshoz be kell jelentkezni
Ez most elgondolkodtatott egy kicsit....
Nem tudom már melyik gépünknél, de vmelyik bootolás után kiírja, hogy milyen proci van benne. Felismeri és működik rendesen, de kiírja, hogy unsupported CPU...
Most az jutott eszembe, hogy nem-e pont ez az a gép... Na ennek vhogy megpróbálok majd utána járni!
- A hozzászóláshoz be kell jelentkezni
köszönöm a hozzászólásokat! Annyi azóta, hogy semmit... Tehát egyszer csak magától eltűnt a probléma, remélem többet nem jön elő!
Kopp, kopp, kopp....
- A hozzászóláshoz be kell jelentkezni