( webmotion | 2021. 06. 12., szo – 19:26 )

Szerkesztve: 2021. 06. 12., szo – 19:28

Kb 2 órája jött 3 e-mail tőlük, idekopizom:

Hibajegy száma:             RFTT/2021/NET/00005
Érintett szolgáltatások:    Internet (IP) kapcsolat / Hálózat
A hiba típusa:              Részleges hálózat kiesés
A hiba kezdete:             2021.06.11 10:06:45
A hiba vége:                2021.06.11 10:15:00
A teljes kiesett idő:       00:08:15
-----------------------------------------------------------------------------
Az Ön érintett szolgáltatása:
(...)
-----------------------------------------------------------------------------
A hiba oka, leírása:
A RackForest gerinchálózata VxLAN alapú BGP EVPN control plane-el és helyszínenkénti route reflektorokkal. A hiba a BGP route reflektorokban lépett fel, bizonyos körülmények között egy-egy BGP session memória buffer hibával
megszakadt és újraindult, ennek még nem kellett volna hibát vagy kiesést okoznia, de több esetben ilyenkor véletlenszerűen másik BGP session-ök is megszakadtak. Ennek az eredménye a route reflektorokban egy öngerjesztő processzor túlterhelés lett, mely miatt egy idő után már annyi BGP session szakadt meg ami már túllépte a redundancia tűrőképességét és részleges hálózati kieséseket okozott. Ez a kiesés a RackForest hálózatában véletlenszerűen két hálózati eszköz között 1-2 percre megszakadó kapcsolatok formájában jelentkezett.

A hiba javítása:
A hiba behatárolása után, mivel a hiba önmagától megoldódott, a BGP route reflektorokon csökkentettük a processzor terhelést és elkezdtük a hiba részletesebb vizsgálatát.

Aztán:

Hibajegy száma:             RFTT/2021/NET/00006
Érintett szolgáltatások:    Internet (IP) kapcsolat / Hálózat
A hiba típusa:              Részleges / teljes hálózat kiesés
A hiba kezdete:             2021.06.11 11:01:18
A hiba vége:                2021.06.11 14:14:00
A teljes kiesett idő:       03:12:42
-----------------------------------------------------------------------------
Az Ön érintett szolgáltatása:
(...)
-----------------------------------------------------------------------------
A hiba oka, leírása:
A RackForest gerinchálózata VxLAN alapú BGP EVPN control plane-el és helyszínenkénti route reflektorokkal. Ugyanaz a hiba lépett fel mint az előző (RFTT/2021/NET/00005) hibajegyben, a BGP route reflektorok processzor terhelésének csökkentése nem volt elegendő a hiba ideiglenes megoldásához.

A hiba ismetelten a BGP route reflektorokban lépett fel, bizonyos körülmények között egy-egy BGP session memória buffer hibával megszakadt és újraindult, de több esetben ilyenkor véletlenszerűen másik BGP session-ök is megszakadtak. Ennek az eredménye a route reflektorokban egy öngerjesztő processzor túlterhelés lett, mely miatt egy idő után már annyi BGP session szakadt meg ami már túllépte a redundancia tűrőképességét és részleges valamint teljes hálózati kieséseket okozott.

A hiba első felében (11:01 - 12:40 között) a jelenség ugyanaz volt mint délelőtt, a kiesések a RackForest hálózatában véletlenszerűen két hálózati eszköz között 1-2 percre megszakadó kapcsolatok formájában jelentkeztek.

A hiba második felében (12:50 - 14:14 között) már nagyobb kiesések és két teljes hálózat kiesés (13:16 - 13:18, valamint 13:38 - 13:48 között) jelentkezett.

A hiba javítása:
A hiba behatárolása után, mivel az eddigi megoldások nem vezettek eredményre, a BGP route reflektorokat azonos gyártmányú de dedikált eszközökre költöztettük, továbbá módosítottunk az eszközök control plane védelmi beállításain, nagyobb prioritást biztosítva a BGP protokollnak, növelve ezzel a hálózat stabilitását.

Majd végül (remélhetőleg):

Hibajegy száma:             RFTT/2021/NET/00007
Érintett szolgáltatások:    Internet (IP) kapcsolat / Hálózat
A hiba típusa:              Részleges / teljes hálózat kiesés
A hiba kezdete:             2021.06.11 17:40:30
A hiba vége:                2021.06.11 18:41:00
A teljes kiesett idő:       01:00:30
-----------------------------------------------------------------------------
Az Ön érintett szolgáltatása:

(...)
-----------------------------------------------------------------------------
A hiba oka, leírása:
A RackForest gerinchálózata VxLAN alapú BGP EVPN control plane-el és helyszínenkénti route reflektorokkal. Hasonló hiba lépett fel mint az előző (RFTT/2021/NET/00005+6) hibajegyben, a BGP route reflektorok dedikált eszközökre költöztetése és processzor terhelésének csökkentése nem volt elegendő a hiba végleges megoldásához.

A hiba a Victor Hugo utcai gerinchálózati switchek processzor túlterhelésével kezdődött, később a probléma megoldása közben a BGP route reflektorokban ismételten fellépett a korábbi hiba: Bizonyos körülmények között egy-egy BGP session memória buffer hibával megszakadt és újraindult, és több esetben ilyenkor véletlenszerűen másik BGP session-ök is megszakadtak. Ennek az eredménye a route reflektorokban egy öngerjesztő processzor túlterhelés lett, mely miatt egy idő után már annyi BGP session szakadt meg ami már túllépte a redundancia tűrőképességét és részleges valamint teljes hálózati kieséseket okozott.

A hiba alatt a jelenség ugyanaz volt mint az előző két hiba esetében: A kiesések a RackForest hálózatában véletlenszerűen két hálózati eszköz között megszakadó kapcsolatok formájában jelentkeztek, valamint 17:43 - 18:05 között teljes hálózat kiesés volt tapasztalható.

A hiba javítása:
A hiba behatárolása után, mivel az eddigi megoldások nem vezettek eredményre, a BGP route reflektorokat más gyártmányú dedikált eszközökre fogjuk cserélni, növelve ezzel a hálózat stabilitását. A két route reflektorból
az egyiket az éjszaka (23:00 - 02:00 között) már ki is cseréltük, a tartalék cseréje a következő napokban várható.

Természetesen mindezek mellett felvesszük a kapcsolatot a hibás hálózati eszközök gyártójával, hogy a kérdéses BGP és BGP route reflektor funkciókal kapcsolatos szoftverhibát javítsák, de ez várhatóan nem lesz egy gyors folyamat, e miatt is döntöttünk úgy, hogy más gyártó eszközére cseréljük a problémás berendezéseket.