Indokolatlanul magas load RHEL5-ön

Sziasztok,

Adott egy HP ProLiant ML150 G3, rajta egy RHEL5. A system load folyamatosan 1 fölött van, a CPU-k vagy IDLE-ben vagy WAIT-ben vannak leginkább:

Cpu0 : 0.0%us, 0.0%sy, 0.0%ni, 11.8%id, 88.2%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu1 : 0.4%us, 0.4%sy, 0.0%ni, 58.0%id, 41.3%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu2 : 0.4%us, 0.4%sy, 0.0%ni, 72.8%id, 26.4%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu3 : 0.4%us, 0.0%sy, 0.0%ni, 98.9%id, 0.0%wa, 0.4%hi, 0.0%SI, 0.0%ST

a vmstat igy néz ki:

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r b swpd free buff cache si so bi bo in cs us sy id wa st
0 0 232 405504 280292 2850188 0 0 288 262 118 5 12 3 75 10 0
0 0 232 405504 280296 2850184 0 0 0 1384 1392 452 0 0 85 14 0
0 0 232 405764 280304 2850184 0 0 0 152 1277 549 1 0 96 3 0
0 0 232 405280 280316 2850392 0 0 248 0 1596 1612 6 1 90 3 0
0 0 232 405220 280316 2850692 0 0 56 152 1382 679 0 0 97 3 0
1 0 232 404724 280320 2850908 0 0 0 24 1318 795 3 0 97 0 0
0 1 232 403244 280320 2850876 0 0 0 808 1295 985 13 3 81 4 0

az /proc/interrupts pedig igy:

CPU0 CPU1 CPU2 CPU3
0: 20667741 20452807 22570075 16840934 IO-APIC-edge timer
8: 0 1 0 0 IO-APIC-edge rtc
9: 0 0 0 1 IO-APIC-level acpi
14: 40544 40669 329875 309767 IO-APIC-edge ide0
50: 3176664 3850660 1542 1543 IO-APIC-level ahci
169: 0 0 0 0 IO-APIC-level uhci_hcd:usb5
217: 96 109 94 35659990 IO-APIC-level uhci_hcd:usb4, eth0
225: 0 1 0 1 IO-APIC-level ehci_hcd:usb1, uhci_hcd:usb2
233: 0 0 0 0 IO-APIC-level uhci_hcd:usb3
NMI: 0 0 0 0
LOC: 80534402 80534423 80534420 80534434
ERR: 0
MIS: 0

Ezek alapján valami hardver problémára gyanakszom, de nincs ötletem, hogy melyik elem a szűk keresztemetszet... a hálókártya, vagy a sata lemezek (md-ben), vagy mi lehet még?

A magas LOC miatt eszembe jutott, hogy noapic-cal bootolom be, ezt még ki fogom próbálni, ha konzol-közelbe kerülök.

Tapasztalt közületek valaki ilyesmit? Merre induljak tovább?

Előre is köszi :)

Hozzászólások

iostat -x?

amugymeg nyilvan a wait miatt van load.

koszi, arra en is rajottem...de mire vár?

avg-cpu: %user %nice %system %iowait %steal %idle
12.09 0.03 2.74 9.80 0.00 75.35

Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 1.14 11.13 3.59 3.11 176.76 117.82 43.96 0.92 137.00 6.96 4.67
sda1 0.00 0.00 0.00 0.00 0.01 0.00 19.04 0.00 9.60 9.52 0.00
sda2 1.14 11.13 3.59 3.11 176.74 117.79 43.97 0.92 137.05 6.96 4.66
sda3 0.00 0.00 0.00 0.00 0.01 0.03 19.78 0.00 12.28 12.03 0.00
sdb 1.18 11.13 3.56 3.11 178.80 117.82 44.49 0.91 136.01 7.06 4.71
sdb1 0.00 0.00 0.00 0.00 0.01 0.00 13.32 0.00 14.23 14.20 0.00
sdb2 1.17 11.13 3.56 3.11 178.78 117.79 44.50 0.91 136.06 7.06 4.71
sdb3 0.00 0.00 0.00 0.00 0.01 0.03 21.19 0.00 14.70 14.71 0.00
sdc 5.82 215.06 12.24 22.50 900.54 1909.13 80.88 9.99 287.57 7.60 26.41
sdc1 5.82 215.06 12.24 22.50 900.54 1909.13 80.88 9.99 287.57 7.60 26.41
sdd 5.87 215.06 12.39 22.50 914.59 1909.13 80.94 10.00 286.55 7.55 26.33
sdd1 5.87 215.06 12.39 22.50 914.59 1909.13 80.94 10.00 286.55 7.55 26.33
sde 0.21 3.55 0.52 3.66 100.21 57.69 37.71 0.24 57.26 9.87 4.13
sde1 0.02 0.22 0.00 0.24 0.06 3.67 15.15 0.00 18.08 14.41 0.35
sde2 0.19 3.33 0.52 3.42 100.15 54.02 39.12 0.24 59.71 9.83 3.87
md1 0.00 0.00 9.46 13.76 355.51 110.09 20.05 0.00 0.00 0.00 0.00
md3 0.00 0.00 36.32 236.90 1815.13 1895.17 13.58 0.00 0.00 0.00 0.00
md2 0.00 0.00 0.00 0.00 0.02 0.01 8.00 0.00 0.00 0.00 0.00
md0 0.00 0.00 0.00 0.00 0.01 0.00 7.12 0.00 0.00 0.00 0.00

-----
Si vis pacem, para bellum...

Nálam a load akkor ugrik meg, amikor rádugom az usb-re a telefonomat és elkezd sikítani a syslog-ba a hald, hogy jajj de szar ez az eszköz, majd fél perc alatt csinál 10 mega logot. :)
Ez erőteljesen felnyomja 4 fölé a load-ot. Itt is valami ilyesmi lehet a baj szerintem.
Mit ír a /var/log/messages?

nem mutat semmi érdekeset, sehol egy hiba, szimplán csak lassúnak, lomhának tűnik a diszk alrendszer.

csináltam a loadról szép grafikont, amin látszik, hogy itt ez periodikus jelleget mutat:
reggel hatkor a load 1 alól indul, majd a nap végére szép lassan eléri a 6-7-es értéket is.

aztán kezdi másnap elöről.

a diszk szektor írás nagyon magas a /var -nak helyt adó diszken. Troubleshooting azt mutatja, hogy ha a httpd-t leállítom, akkor ez minimálisra esik vissza.

kérdés: mi a fenét ír annyit a httpd?
logikus lenne rávágni, hogy logot.
de nem, a logok máshova mennek, pont azért, hogy jobb legyen a terhelés-elosztás.
a php tempje sem a /var-ban van.

mivel tudnám kideríteni, hogy mi és mit ír annyit?

lsof-el megnéztem, hogy mi van nyitva azon a partición, de semmi különös.

-----
Si vis pacem, para bellum...

A httpd-nek nincs valami cache odairanyitva? php upload dir lehet meg ilyenkor sanszos, bar nem tudom, mit szolgal ki a webszerveretek. A httpd leallitasa miatt meg akarmi is lehet, akar a mysql is okozhatja, ezt is erdemes lenne megnezni (a httpd ilyenkor durvan fogalmazva csak egy proxy/gateway a mysql fele. Ha leallitod, nyilvan a mysql se kap adatot, igy leesik az iowait meg a load).
--


()=() Ki oda vagyik,
('Y') hol szall a galamb
C . C elszalasztja a
()_() kincset itt alant.