Üdv,
Kicsit misztikus a jelenség :). Van két Solaris 10u5 Sun Cluster 3.2u1 környezetben (márciusi recommended patchclusterrel patchelve) V880-as gépeken.
A cluster interrconnectjei a qfe0 és qfe4.
Ha A gépről scp-zek a B gép clprivnet0 címére, akkor 25-40 Mbit/s (ezt us kicsit lassúnak tartom), viszont ha B gépről scp-zek A gép clprivnet0 címére, akkor ali van 1 Mbit/s. Ez nagyon karcsú. Az ndd szerint a portok 100 Mbit/s Full duplex-ben vannak. snoop-pal nézegettem, hogy a csomagok megfelelő interface-eken szeretnének -e menni. Ezzel nincs baj szerintem. A hálózati eszközökre nem látok rá. Van valami ötletetek hogy deríthetném ki az operációs rendszer oldali hibát, vagy bizonyíthatnám, hogy nem ott van a hiba?
Kipróbáltam, hogy cluster nélkül bootoltam be, felkonfiguráltam a qfe0-t és úgy is a fent leírt volt a jelenség.
Laci
Megoldás: Hálózati eszköz konfigurációs probléma volt. A switchek portai auto negotiation -ra voltak állítva, 100 full duplex állítás után minden szép és jó.
Hozzászólások
lehet balga kérdés, de bandwidth tesztet nem tudsz csinálni? kizárható lenne az egyik oldalon elkonfigurált ssh
nem ssh related a dolog. A cluster interconnect kommunikáció is lassú.
Hálókártya csere volt már?
------------------------------------------------
A legtöbb ember azt hiszi, csak a gyomra üres...
Még nem, mert kicsit távol van a masina. Majd holnap talán meg lehet ezt is lépni.
Bár mind a négy hálókártya rossz lenne...? Vannak publikus címek is a hálókártya más portjain, ott nincs hálózati sebesség probléma (gépenként 2 db 4 portos kártyáról beszélünk). A qfe0 az első kártya 0-ás portja és a qfe4 a másik kártya 0-ás portja.
Csak egy kósza ötlet: más forgalom nem foghatja meg a forgalmat?
------------------------------------------------
A legtöbb ember azt hiszi, csak a gyomra üres...
A cluster interconnect-ek külön VLAN-ban vannak, az interconnect forgalmon kívűl ott más forgalom nem lehet. Meg néztem snoop-al, semmi kiemelkedő forgalom nincs.
99.99%, hogy az interconnecten a hálózati switchek valamelyik portja nem 100 fdx-ben megy.
Az, hogy ebből nagyobb bajod nem lett (pl. interconnect down -> egyik cluster node pánikol), az a mázli kategóriájába esik...
Egyébként minek van switch az interconnecten? Olyan messze vannak a gépek egymástól? Pont az ilyen "hozzáértő módon" bekonfigolt switchek miatt javasolt a switchek kihagyása onnan, amennyiben erre van fizikai lehetőség.
5 km távolságban van a két gép :)
Majd holnap nézetem meg a hálózatosokkal az adott portokat.
:) Azért akkor az is megér egy misét, hogy hogyan is néznek ki azok a távoli switch kapcsolatok...
Spec. szerint a minimum elvárás, hogy mindkét interconnect számára garantált legyen min. 100 megabit sávszélesség (ehhez a gyakorlatban dedikált vonal/WDM csatorna, vagy no overbooking, vagy QoS kell), és olyan szinten redundáns legyen, hogy 0.1 másodpercre sem maradhat ki mindkét interconnect egyidőben.
A két site között a kapcsolat jól van megcsinálva (redundáns sötét üveg). Más clusterekkel nincs gond. Kíváncsi vagyok, hogy a hálózatosok mit találnak. A szép az lesz, ha azt mondják, hogy ott náluk nincs hiba.