Solaris NFS I/o error

Sziasztok,

Good practice-t keresek.
Szinte minden node-ot erintett a kovetkezo problemaban:
NetApp NFS leszakadozik. message, log semmi. Egyszeruen I/O error-t dob ha belemesz a mountba, addig eszre sem lehet venni.Teljesen rapszodikus az elofordulas.
Most snoop-olni szeretnem a NetApp es a solaris hostok kozti forgalmat. Mert teljesen kiszamithatatlan a megszakadas, ti hogyan configuralnatok a snoopot, hogy a leheto legkevesebb felesleges dolgot gyujtse.
Milyen monitorokat allitanatok meg be a hibakereseshez a kliens oldalon?
(egy bash scriptel figyelem crontabbol egy sima ls-el, hogy olvashato-e meg, ha nem force remount, es irok egy logot rola, arra gondoltam, innen inditom a snoopot, ha remountolt majd killelem ha ujra bekovetkezik)

Udv,
P.

Hozzászólások

Ez eleg betegul hangzik. Mivel ez egy magas I/O cucc, a halozati log tul sok dolgot tartalmazna. En elsore egy netstat -i kimenetet neznek. Ha van hiba, akkor azt hogy szaporodik-e. Mivel minden node erintett, a storage oldalan lehet a bibi. Ha menedzselheto switch-ben van, nezz ra a statisztikakra. Ha loadbalance-olt bekotese van valamelyik oldalnak, lehet konfighiba is.

Szerk: betegul a hiba hangzik, nem az otleted :D

ha io errort dob, akkor hard mountolva van? udp-n vagy tcp-n nyomod?
csak éles üzemben jön elő, vagy van lehetőség valami teszt gépen reprodukálni? ha az alapvető dolgok ki lettek zárva, talán megpróbálnék teszt géppel soft mountot, úgy bizonyos hibákat jobban lehet nyomozni.

Hiba idején, a tároló IO wait-je emelkedik?
Van esetleg read error-os hibás disk a tömbben? Riad vezérlő(k) esetleg disk-ek smart rekordjai jeleznek hibát?

snoop -nak semmi értelme, nem jössz rá semmire.
mount opciók, hogy néznek ki?
Ha szinte minden node -ot érint, akkor közös hálózati elemek ellenörzése, tcp -vel mountolsz? udp -vel?
Jumbo Framet használsz -e? Ezt a switchek is tudják?
Egy hálózati kártya, vagy ether channelt / bondingot is használsz?

Én minden képpen arra gondolnék, hogy a hálózat ( tcp hardmount - tippelek ) timeoutol aka a filer nem elérhető. Az nfs mount folyamatosan pollozza a filert, tehát ha nem tud kommunikálni a control channel megszakad és voila io error.
A data ontap nfs implementációja -szerintem- már már hibamentes, persze azért érdemes lenne egy verziót nézni, GX -el is ezt gondolom.

btw, sematikus topologia?

Ilyen féloff:
automount-tal van megcsinálva? Nem stabil hálózat, túlterhelt hálózat esetén segíthet valamit a csak akkor mount valami ha éppen kell ne mindig ezzel is terhelve a dolgot.