Lassú IO műveletek Ubuntu 10.4-en ESX-ben virtualizálva

Fórumok

Egy blade-en kaptam egy virtuális gépet, melyre Ubuntu 10.4 LTS került. Ugyanezen a blade-en van még 2-3 ugyanilyen Ubuntu, de csak az enyémen jelentkezik a lassú IO. Mindegyiket ugyanaz az illető telepítette, ugyanolyan beállításokkal (storage, memória, CPU, stb).

#hdparm -tT /dev/sda

/dev/sda:
Timing cached reads: 13118 MB in 2.00 seconds = 6566.01 MB/sec
Timing buffered disk reads: 4 MB in 3.02 seconds = 1.33 MB/sec

#dd if=/dev/zero of=/tmp/output.img bs=8k count=256k
^C
27584+0 records in
27584+0 records out
225968128 bytes (226 MB) copied, 477.407 s, 473 kB/s

#fdisk -l

Disk /dev/sda: 21.5 GB, 21474836480 bytes
255 heads, 63 sectors/track, 2610 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x000ed20a

Device Boot Start End Blocks Id System
/dev/sda1 * 1 32 248832 83 Linux
Partition 1 does not end on cylinder boundary.
/dev/sda2 32 2611 20719617 5 Extended
/dev/sda5 32 2611 20719616 8e Linux LVM

Hogy tudnám kideríteni, hogy mitől ilyen lassú?

Hozzászólások

Sok munkával.
De ha azt szeretnéd, hogy esetleg mások segítsenek, kicsit több info kellene.
Milyen blade?
Milyen storage?
FC vagy iSCSI (esetleg NFS vagy esetleg localdisk)?
Milyen virtualizáció?
stb, stb, stb.

A következő információkat kaptam:
Blade: Intel mfsys25
Ha minden igaz egy Lsi1064E SAS vezérlő van benne, és a local diskekre dolgozik.
A virtualizáció az ESX, de ezt már tudjuk.

Milyen infó kellhet még?

Kernel:
#uname -a
2.6.32-32-generic-pae #62-Ubuntu SMP Wed Apr 20 22:10:33 UTC 2011 i686 GNU/Linux

~# lsmod
Module Size Used by
acpiphp 18316 0
fbcon 35102 71
tileblit 1999 1 fbcon
font 7557 1 fbcon
bitblit 4707 1 fbcon
ppdev 5259 0
psmouse 63245 0
softcursor 1189 1 bitblit
serio_raw 3978 0
parport_pc 26250 1
vga16fb 11385 1
vgastate 8961 1 vga16fb
i2c_piix4 8527 0
lp 7028 0
parport 32635 3 ppdev,parport_pc,lp
intel_agp 24671 1
agpgart 31788 1 intel_agp
shpchp 28899 0
pcnet32 29402 0
mii 4381 1 pcnet32
floppy 53080 0
mptspi 14716 2
mptscsih 32029 1 mptspi
mptbase 84238 2 mptspi,mptscsih

Igen, kis eltéréssel ( eddig nekem 512M RAM volt, amit feltoltunk 2GB-ra ).
Egyébként a gép nincs leterhelve. Tehát a disket (és a procit) nem foglalja másik VM.

Még egy infó:
#free
total used free shared buffers cached
Mem: 2061348 483928 1577420 0 31652 404940
-/+ buffers/cache: 47336 2014012
Swap: 905208 0 905208

#dmesg

...
[ 7.125231] scsi2 : ioc0: LSI53C1030 B0, FwRev=01032920h, Ports=1, MaxQ=128, IRQ=17
[ 7.236878] scsi 2:0:0:0: Direct-Access VMware Virtual disk 1.0 PQ: 0 ANSI: 2
[ 7.236894] scsi target2:0:0: Beginning Domain Validation
[ 7.237522] scsi target2:0:0: Domain Validation skipping write tests
[ 7.237525] scsi target2:0:0: Ending Domain Validation
[ 7.237570] scsi target2:0:0: FAST-40 WIDE SCSI 80.0 MB/s ST (25 ns, offset 127)
[ 7.239398] sd 2:0:0:0: [sda] 41943040 512-byte logical blocks: (21.4 GB/20.0 GiB)
[ 7.239474] sd 2:0:0:0: [sda] Test WP failed, assume Write Enabled
[ 7.239497] sd 2:0:0:0: [sda] Cache data unavailable
[ 7.239500] sd 2:0:0:0: [sda] Assuming drive cache: write through
[ 7.239641] sd 2:0:0:0: [sda] Test WP failed, assume Write Enabled
[ 7.239664] sd 2:0:0:0: [sda] Cache data unavailable
[ 7.239666] sd 2:0:0:0: [sda] Assuming drive cache: write through
[ 7.239669] sda:
[ 7.239811] sd 2:0:0:0: Attached scsi generic sg1 type 0
[ 7.264475] sda1 sda2 < sda5 >
[ 7.272582] sd 2:0:0:0: [sda] Test WP failed, assume Write Enabled
[ 7.272606] sd 2:0:0:0: [sda] Cache data unavailable
[ 7.272609] sd 2:0:0:0: [sda] Assuming drive cache: write through
[ 7.272612] sd 2:0:0:0: [sda] Attached SCSI disk
[ 11.182885] EXT4-fs (dm-0): mounted filesystem with ordered data mode
....

Ezek szerint a vezérlő egy LSI53C1030, és nem a korábban említett...

Nincsenek ugyanazon az ESX-en Windows-os VM-ek is? Mi futottunk bele olyanba, hogy valamiért a Windows VM-ek intenzív I/O művelet mellett (másolás, mentés, stb) Elvitték az I/O erőforrást a Linux-ok elől egy FC storage-on.

A dd-t nézd meg több blokkmérettel is, és kicsit nagyobb adatmennyiséggel (mondjuk 1-2-5GB-ot kiíratva vele) Abból is jöhetnek ki érdekes adatok.

Szia!

Ilyen döbbenetesen szar értékekek mindenképpen gyanúsak.
Van telepítve VMware Tools azon a bubuntun? Na nem mintha anélkül ilyen lassúnak kellene lennie, de az mindenképpen javít a VM teljesítményén. Egy lövést megérhet, hátha attól javulás lesz.
Amit még jó lenne tudni:
- Ugyanazon a DataStore-on van mindhárom gép?
- A VM-ek paraméterei _tutira_ megegyeznek? (SCSI controller, Hard Disk mode, Paravirtualization, Resource Allocation)
- Mi történik, ha az egyik jól működő VM-et klónozzátok le, és azt használjátok?

-pilisig-

A tools elkezdtem feltenni, de azt hiszem a gcc-hiánya miatt megáltt. Aztán nem erőltettem, mert én sem hiszem, hogy ez lenne a hiba kulcsa. De most akkor felrakom, talán egy kicsit gyorsabb lesz, és az a munkát is megkönnyíti. 10-30mp-et várni egy lognira az nem normális.

Ugyanazon a DataStore-on van mindhárom gép?
-local diskre dolgozik mindegyik. Ha jól tudom rá van kötve egy storage, de ezek a VM-ek még nem használják.

A VM-ek paraméterei _tutira_ megegyeznek? (SCSI controller, Hard Disk mode, Paravirtualization, Resource Allocation)
-Nem tuti, mert nem győződtem meg mindenről saját magam. Holnap tudom ezt megtenni.

Mi történik, ha az egyik jól működő VM-et klónozzátok le, és azt használjátok?
-Ezen már mi is gondolkodtunk, lehet, hogy ez gyorsabb megoldás lesz :(

Felraktam a tools-t, ezuán:

#iostat -xtc 5 3
Linux 2.6.32-32-generic-pae 05/31/2011 _i686_ (1 CPU)

05/31/2011 05:22:52 PM
avg-cpu: %user %nice %system %iowait %steal %idle
0.72 0.00 7.91 5.99 0.00 85.38

Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
scd0 5.02 0.00 0.16 0.00 20.78 0.00 126.55 0.06 373.72 250.87 4.12
sda 0.75 64.18 1.32 2.19 62.00 531.15 168.66 0.84 237.51 26.46 9.31
dm-0 0.00 0.00 2.03 66.15 61.66 529.18 8.67 14.42 211.47 1.37 9.34
dm-1 0.00 0.00 0.01 0.00 0.10 0.00 8.00 0.00 133.95 71.01 0.09

05/31/2011 05:22:56 PM
avg-cpu: %user %nice %system %iowait %steal %idle
1.12 0.00 98.88 0.00 0.00 0.00

Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
scd0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

05/31/2011 05:23:02 PM
avg-cpu: %user %nice %system %iowait %steal %idle
0.00 0.00 100.00 0.00 0.00 0.00

Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
scd0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sda 0.00 15922.58 0.00 162.90 0.00 128606.45 789.47 51.77 317.74 21.31 347.10
dm-0 0.00 0.00 0.00 16083.87 0.00 128670.97 8.00 5936.75 369.11 0.28 442.58
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

mi az az "Ubuntu ESX"? :))) ertelmes cimet a topicnak, legyszi.

# dd if=/dev/zero of=/tmp/output.img bs=8k count=256k
262144+0 records in
262144+0 records out
2147483648 bytes (2.1 GB) copied, 29.9875 s, 71.6 MB/s

Azon kívül, hogy feltettem a tools-t, semmi mást nem követtem el.
Annyi változott, hogy az egyik pengén volt egy debian, amit egy időre leállítottak (nagyjából ekkor lett jó az IO sebességem), majd csináltak rajta egy frissítést (pl.: adatbázis upgrade) és újraindították. Többet nem tudok róla, de a sebességem mint látható most már rendban van.

Szóval a megoldást nem tudom, de a célomat elértem.