Cisco 3650 switch anomáliák (flapping port)

Sziasztok!

Ma történt egy eset, ami nem teljesen tiszta, jelenleg csak tapogatózunk a sötétben.

Dióhéjban annyi a történet, hogy egyszercsak teljesen kiesett a hálózat. Nem tudjuk, hogy mi váltotta ki. Van 2 win szerver failoverrel, valami miatt az egyikről a másikra átmásolódott az összes virtuális gép és kb. meg is halt mindegyik, nem reagáltak az egér vagy billentyűzet mozgatására sem, sőt újraindultak egy idő után (utána elvileg helyreállt minden).

Később kiderült, hogy vannak bizonyos helyek, ahol nem érik el a kliensek a DHCP szervert. Tovább nyomozva kiderült, hogy vannak switchek, amiken abszolút nincs forgalom és volt olyan, amin keresztül bár (látszólag) volt forgalom, legalábbis rajta keresztül elérhető volt 1-1 switch normálisan.

A topológia kb. így néz ki:

server----->sw1--->sw2,sw3,sw4
sw1--->sw5--->sw6
sw1--->sw7--->sw8

Lényegében az sw1 amin minden forgalom keresztül megy.

Távolról az sw6 elérhető volt webes felületen is, a kliensek is elérték a DHCP szervert, a forgalom elvileg zavartalanul megvan. Ahhoz, hogy az sw6-ot elérjem, az sw5-ön és az sw1-en át vezet az út. Ez azért érdekes, mert az sw5-nek és az sw1-nek bár betöltődött a webes konfigfelülete, nem engedett bejelentkezni. Érdekes módon volt olyan switch, amelyikbe telneten sem lehetett belépni csak konzolon keresztül.

Az sw8-on lévő kliensek nem érték el a dhcp szervert, az sw7-en aki volt, az igen. Ebben semmi logika nem látszik, hogy pl. csak a köztes switchekkel lenne gond.

Lementettem pár logot (sajnos nincs meg mind, mert az első pár switchet csak úgy találomra újraindítottam, hogy lesz-e változás, mert még nem volt nálam konzolkábel. Ami úgy feltűnt, hogy ha olyan köztes switchet indítottam újra, ami után még voltak másikak is, és amelyikre nem lehetett egyébként bejelentkezni; akkor a rajta lévő és az utána lévő switchen lévő kliensek már kaptak ip-t dhcp-vel.

Én arra gondolok, hogy valamilyen hurok jött létre valahol, amit az eszközök nem vagy nem megfelelően tudnak kezelni. Valószínűleg volt valami, ami kiváltotta ezt az egész láncolatot. Emlékeim szerint legutoljára valami nagy méretű másolás ment a hálózaton sok-sok kicsi fájllal (nem biztos, hogy van hozzá köze). Ezek a switchek szinte napra pontosan 30 napja lettek üzembe helyezve. Az a fura, hogy ha nagy gond van, akkor miért csak most jött elő és mi váltotta ki. Kíváncsi leszek, hogy az újraindítás után is létrejönnek-e ezek a naplóbejegyzések (ha igen, akkor mikor).

Flappig portok vannak a logokban (már amelyik még megvan, kellene egy syslog szerver lassan). Holnap vagy valamelyik nap meg kellene nézni pontosan mi hova van kötve, mert elég nagy rohanás volt a határidők miatt, de szerintem nincs hurok, bár a régi hálózat is ezzel párhuzamosan üzemel, szóval még akár az is lehet.

Itt az egyik switch logja, a többiben is hasonlók voltak és mindegyik ma 14:10 körül kezdődik:


Cisco_3650_2#sh log
Syslog logging: enabled (0 messages dropped, 1 messages rate-limited, 0 flushes, 0 overruns, xml disabled, filtering disabled)

No Active Message Discriminator.

No Inactive Message Discriminator.

Console logging: level emergencies, 0 messages logged, xml disabled,
filtering disabled
Monitor logging: level debugging, 0 messages logged, xml disabled,
filtering disabled
Buffer logging: level debugging, 1651 messages logged, xml disabled,
filtering disabled
Exception Logging: size (4096 bytes)
Count and timestamp logging messages: disabled
File logging: disabled
Persistent logging: disabled

No active filter modules.

Trap logging: level informational, 1653 message lines logged
Logging Source-Interface: VRF Name:

Log Buffer (4096 bytes):

Jul 3 14:06:47.137: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:06:55.412: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/20 and port Gi1/0/48
Jul 3 14:07:03.152: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:07:10.077: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/20 and port Gi1/0/48
Jul 3 14:07:17.153: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:07:19.347: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/20
Jul 3 14:07:33.101: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:07:33.248: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/20 and port Gi1/0/48
Jul 3 14:07:48.527: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:07:55.723: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/20
Jul 3 14:08:02.138: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:08:07.263: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/20
Jul 3 14:08:17.244: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/20 and port Gi1/0/48
Jul 3 14:08:21.952: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:08:36.128: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/8
Jul 3 14:08:38.351: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/20 and port Gi1/0/48
Jul 3 14:08:47.264: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/20 and port Gi1/0/48
Jul 3 14:08:56.123: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/8
Jul 3 14:09:09.631: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:09:19.628: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/8
Jul 3 14:09:25.313: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/20
Jul 3 14:09:32.124: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:09:48.131: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:09:54.349: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/20 and port Gi1/0/48
Jul 3 14:10:02.162: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:10:04.259: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.32e8 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/20
Jul 3 14:10:18.156: %SW_MATM-4-MACFLAP_NOTIF: Host 4c52.620d.91bd in vlan 1 is flapping between port Gi1/0/8 and port Gi1/0/48
Jul 3 14:32:50.943: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet1/0/20, changed state to down
Jul 3 14:32:51.944: %LINK-3-UPDOWN: Interface GigabitEthernet1/0/20, changed state to down
Jul 3 14:47:40.471: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet1/0/8, changed state to down
Jul 3 14:47:41.475: %LINK-3-UPDOWN: Interface GigabitEthernet1/0/8, changed state to down
Jul 3 19:29:29.891: %IOSXE-4-PLATFORM: Switch 1 R0/0: kernel: Algorithmics/MIPS FPU Emulator v1.5
Jul 3 19:51:15.587: %NGWC_USB_CONSOLE-6-USB_INSERT: Switch 1: USB cable inserted. Console media-type USB is in effect

Hozzászólások

derítsd ki hol van a loop a hálózaton,
addig is :
spanning-tree mode rapid-pvst

A rapid-pvst be van kapcsolva minden switchen (de vannak régiek, amik szerintem nem is tudják 3com, hp, tp-link). Ma újra megállt minden délelőtt.

Az egyik logban találtam egy ilyet is:

Jul 4 07:34:44.108: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.2b3e in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/10
Jul 4 07:34:49.760: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e85.6340 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/4
Jul 4 07:34:49.809: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e2e.8406 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/7
Jul 4 07:34:54.039: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.2b3e in vlan 1 is flapping between port Gi1/0/10 and port Gi1/0/48
Jul 4 07:34:54.157: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet1/0/8, changed state to down
Jul 4 07:34:56.238: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet1/0/8, changed state to up
Jul 4 07:35:01.629: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet1/0/8, changed state to down
Jul 4 07:35:03.639: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet1/0/8, changed state to up
Jul 4 07:35:05.982: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.2b3e in vlan 1 is flapping between port Gi1/0/10 and port Gi1/0/48
Jul 4 07:35:06.573: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e85.6345 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/5
Jul 4 07:35:07.557: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e85.6340 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/4
Jul 4 07:35:08.277: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e2e.83f5 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/9
Jul 4 07:35:09.360: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e2e.8406 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/7
Jul 4 07:35:18.525: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e85.6345 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/5
Jul 4 07:35:18.585: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e2e.83f5 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/9
Jul 4 07:35:19.076: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e85.6340 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/4
Jul 4 07:35:20.903: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e2e.8406 in vlan 1 is flapping between port Gi1/0/7 and port Gi1/0/48
Jul 4 07:35:21.951: %SW_MATM-4-MACFLAP_NOTIF: Host 0019.99cc.2b3e in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/10
Jul 4 07:35:28.032: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e85.6345 in vlan 1 is flapping between port Gi1/0/5 and port Gi1/0/48
Jul 4 07:35:28.317: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e2e.8406 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/7
Jul 4 07:35:29.201: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e2e.83f5 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/9
Jul 4 07:35:30.134: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e85.6340 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/4
Jul 4 07:35:33.273: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e2e.8406 in vlan 1 is flapping between port Gi1/0/7 and port Gi1/0/48
Jul 4 07:35:35.091: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e2e.83f5 in vlan 1 is flapping between port Gi1/0/9 and port Gi1/0/48
Jul 4 07:35:35.266: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e85.6340 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/4
Jul 4 07:35:36.088: %SW_MATM-4-MACFLAP_NOTIF: Host 901b.0e85.6345 in vlan 1 is flapping between port Gi1/0/48 and port Gi1/0/5
Jul 4 07:35:36.108: %ETHCNTR-3-LOOP_BACK_DETECTED: Loop-back detected on GigabitEthernet1/0/48.
Jul 4 07:35:36.108: %PM-4-ERR_DISABLE: loopback error detected on Gi1/0/48, putting Gi1/0/48 in err-disable state
Jul 4 07:35:37.110: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet1/0/48, changed state to down
Jul 4 07:35:38.124: %LINK-3-UPDOWN: Interface GigabitEthernet1/0/48, changed state to down

Igen, azért írtam mert szerintem is onnan jön a loop, mivel a régi és az új hálózat párhuzamosan megy és tutira valahol megmaradt egy kábel. Csak az az érdekes, hogy egy hónap után miért most jött elő. Megrajzolom a teljes topológiát és listázom az érintett eszközöket/portokat.

Hozzam is fordultak ilyen hibaval. Tavolrol raneztem routerre, mondtam rendszergazdanak huzza ki a kabelt, majd jonnek hogy nem megy valami. Meg is lett kb 5 perc mulva, hogy a HR-en elment a net. Aztan eleg volt odamennie es megkerdeznie, hogy az ott levo buta switchnek a portjait megis miert dugtak ossze az okosok.

A flappingget nem feltétlen hurok okozza. Láttam ilyesmit teljesen jól működő rendszerben is.
Pl roamingot támogató, de az AP-n kilépő forgalommal operáló access pointok tudnak ilyesmit okozni.
Ezt csak azért írom h. nem biztos, hogy ezen a nyomon kell elindulnod. Persze a loop kizárása valóban fontos lenne első körben.
Ahogy előttem is mondták már, addigis rapid pvst :)

Megnézhetnéd, hogy a logban levő MAC címek melyik géphez tartoznak. Ilyen hiba előfordulhat akkor is, ha egy adott szerverben 2+ hálókártya van, és legalább 2+ port össze van fogva, de rosszul. Esetleg a szerver failover miatt nincs két ugyanolyan mac cím (első körben én arra tippelek, hogy a virtuális gépek vitték magukkal a mac címeket is)?

Vizsgára felkészülés végett keresek "kidobásra" szánt menedzselhető Cisco switch-eket és routereket, leginkább Pest és Bács-Kiskun megye területén.

"Holnap vagy valamelyik nap meg kellene nézni pontosan mi hova van kötve"

Segítene...

Amikor valami anomália van a hálózatban, megkeresem a legközelebbi TP-Link eszközt és lerúgom a falról. Ezután hátradőlök, mert a probléma megoldódik. Vicces lehet, de legutóbb is a "nincs DHCP", ellenben "loop van" problémát egy olyan switch okozta, ami még csak nem is menedzselhető, de valahogy sikerült megőrülnie. Eltettem azért tesztelgetni, hogy hogyan csinált hurkot egy kábelen.

--
openSUSE 42.2 x86_64

todolist, mielőtt komolyabban elkezdenéd tovább-debugolni: (szerintem)
* minden switch-en port description-t töltsd ki, ahol valami szomszéd switch felé megy. sh cdp nei segíthet. Azokat tedd trunk módba, az access portokon meg bpduguard.
* spanning tree-re nem baj, ha vannak tervezetten loop-ok a redundancia biztosítására, de állíts be kézzel súlyokat is a linkekre, hogy ha él minden link, akkor az a link legyen down-ban, amelyiket te szeretnéd
* és ami még nagyon fontos: udld legyen bekapcsolva a switchek közti portokon

Ha ezek megvannak teljesen és pontosan, na akkor és csak is akkor kezdj el tovább mélyebbre ásni, ha és egyáltalán még mindig adott a problémád.