SATA kezelés kernel -2.6.26-2-686

Fórumok

Kezd elegem lenni :(
ASUS alaplap ICH7 és Promise SATA controllerrel. Jelenleg az ICH7 -en lóg két WD3200AAJS 320G SATA diszk raid1 -ként. Jön egy klassz kis hiba:

exception Emask 0x0 SAct 0x0 SErr 0x0 0x6 frozen

és tényleg frozen :(
A smartctl -a /dev/sdx nem mutat semmilyen hibát. Összevissza konfiguráltam a BIOS -t végül már be sem tudtam bootloni (a rendszer egy másik PATA diszken van, de a kernel sda -nak látta). Kipróbáltam a "noacpi" és a "noapic" opciókat is, külön-külön és együt - semmi. Lekapcsoltam minden nem szükséges szolgáltatást - USB és firewire - semmi.
Levettem a diszkek sebességét SATAI -re (elvileg az ICH7 és a Promise is csak SATAI). Évekig működött így. Most éppen elindítottam a régi, 2.6.18-x kernellel - teljesen le van lassulva, lost interrupt meg hasonlók.
A WEB tele van ezzel a hibával, még 2011 -is de mindenki csxak próbálkozik, mindenkinek más jön be. Ha nincs raid1 vagy degraded, akkor nincs a hiba!?
Mit lehetne még kipróbálnom?

Hozzászólások

egy újabb kernelt?!

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Utolsó lehetőség képen - nem egy modern vas P4.
Na várjunk csak... megnéztem a libata wiki -ben mit is ajánlanak erre a hibára - a vége egy "Emask 0x4 (timeout)" és ott azt látom hogy a helyes az acpi=off (én a noacpi -t próbáltam).

Controller failed to respond to an active ATA command. This could be any number of causes. Most often this is due to an unrelated interrupt subsystem bug (try booting with 'pci=nomsi' or 'acpi=off' or 'noapic'), which failed to deliver an interrupt when we were expecting one from the hardware.

De nem megint vergődik - végig megy aaz UDAM/133, UDMA/100 végül UDMA/33 és akkor feladja.
Érdekes hogy az opciók mind vagylagosak, egyszerre nem érdemes?

* Én egy indián vagyok. Minden indián hazudik.

Nézem, hogy valakinél a hűtés volt a gond. Most épp a "jó" diszk az 40°C a "rossz" 37 °C - szerintem ennek bele kellene férni.

* Én egy indián vagyok. Minden indián hazudik.

"Mit lehetne még kipróbálnom?"

Azt a cirka 3 éves kernelt egy frissebbre upgrade-lni.

--
trey @ gépház

Trey. Nem egy és nem kettő kernelt raktam fel és tartok üzemben. A Debian Lenny -hez ez a kernel dukál. Sok ezer felhasználónak jó, nekem valamiért nem - nem lehet hogy másutt van a hiba?
Ha ez egy kis ugri-bugri gépecske lenne azt mondanám OK, de nem. Évekig működött, kifogástalanul. Most mi történt? Itt valami hardware gáz van de vajon mi, hogy lehetne behatárolni? Amit te javasolsz az egyenlő amit a windows rendszergazda mond:
"Kis hiba - indítsd újra. Nagy hiba - telepítsd újra"

* Én egy indián vagyok. Minden indián hazudik.

Nekem az indító postból az jött le, hogy évekig működött workaround-dal. Azaz, buhera nélkül sose működött. Hogy mit lehet megnézni? A szokásos: táp, kábelek, alaplap kondenzátorok és így tovább.

"Ha ez egy kis ugri-bugri gépecske lenne azt mondanám"

Nem akarlak megbántani, de ez egy ugri-bugri gépecske. Ha nem az lenne, hanem mondjuk egy brand szerver, akkor komolyabb diagnosztikát is el lehetne rajta indítani.

--
trey @ gépház

Kicsit több az információ - nem tudom örüljek-e.
RIP 12.3 kernel 2.6.38.5
failed command: WRITE DMA EXT
cmd 35/00: ... tag 0 dma 524288 out
res 40/00: ... Emask 0x4 (timeout)
status: {DRDY}
lost interrupt (Status 0x50)

* Én egy indián vagyok. Minden indián hazudik.

nolapic-el is ezt csinálja?

"Edouard Bourguignon 2011-05-16 14:55:28 EDT

I've just upgraded to fc15, and for the moment (1day of uptime), no error. So
far so good, I hope this is fixed now.

Comment 15 Edouard Bourguignon 2011-05-23 04:17:24 EDT

After a few days of uptime, still nothing. But when I remove the nolapic option
from cmdline, same errors are back"
https://bugzilla.redhat.com/show_bug.cgi?id=667964

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

No ezt még nem próbáltam - most, próba képen kicseréltem az egyik (az éppen hibázó diszk kábelét) és bedugtam egy 500G -s diszket (SATAI -re jumpolva).
Próbálkoztam azzal, hogy hagytam a raid -et degrade -ben, a másik diszket simán felformáztam, és rsync - nem raid csak backup. Úgy 70% magasságában megint előjöttek a hibák. Az az érzésem, szimplán túlmelegszik valami - akár az chipset.

* Én egy indián vagyok. Minden indián hazudik.

A diszk és kábel csere bejött - egyenlőre. Talán kibírja amíg felkonfigurálom az utódját.
A tápot egyenlőre nem cserélem - simán elvitt 5 diszket is néhány napja.
Nem az első alkalom, hogy így lefittyen. Mindig reménykedtem, hogy az alkalmazott trükk megoldja. Aztán telt-múlt az idő néhány nap, két hónap és megint lefittyent.

* Én egy indián vagyok. Minden indián hazudik.

Estére/késő délutánra a raid megint lefittyent. A diszk, még a smartctl szánára is elérhetetlen lett. Ha újraindítom valószínűleg elérem, de most még dolgozni kell - szükségem van a szerveremre.
Valami túl melegszik. Három disk van egymás fölött, két ventilátor fújja, a legfelső mégis 46 °C és kifogástalanul működik. Szerintem ez a chipset - alig lehet megfogni.
A BIOS kijelez valami MBR hőmérsékletet, nem tudjátok hol lehet ezt megnézni? /proc vagy /sys

* Én egy indián vagyok. Minden indián hazudik.