Kb 2 órája jött 3 e-mail tőlük, idekopizom:
Hibajegy száma: RFTT/2021/NET/00005
Érintett szolgáltatások: Internet (IP) kapcsolat / Hálózat
A hiba típusa: Részleges hálózat kiesés
A hiba kezdete: 2021.06.11 10:06:45
A hiba vége: 2021.06.11 10:15:00
A teljes kiesett idő: 00:08:15
-----------------------------------------------------------------------------
Az Ön érintett szolgáltatása:
(...)
-----------------------------------------------------------------------------
A hiba oka, leírása:
A RackForest gerinchálózata VxLAN alapú BGP EVPN control plane-el és helyszínenkénti route reflektorokkal. A hiba a BGP route reflektorokban lépett fel, bizonyos körülmények között egy-egy BGP session memória buffer hibával
megszakadt és újraindult, ennek még nem kellett volna hibát vagy kiesést okoznia, de több esetben ilyenkor véletlenszerűen másik BGP session-ök is megszakadtak. Ennek az eredménye a route reflektorokban egy öngerjesztő processzor túlterhelés lett, mely miatt egy idő után már annyi BGP session szakadt meg ami már túllépte a redundancia tűrőképességét és részleges hálózati kieséseket okozott. Ez a kiesés a RackForest hálózatában véletlenszerűen két hálózati eszköz között 1-2 percre megszakadó kapcsolatok formájában jelentkezett.A hiba javítása:
A hiba behatárolása után, mivel a hiba önmagától megoldódott, a BGP route reflektorokon csökkentettük a processzor terhelést és elkezdtük a hiba részletesebb vizsgálatát.
Aztán:
Hibajegy száma: RFTT/2021/NET/00006
Érintett szolgáltatások: Internet (IP) kapcsolat / Hálózat
A hiba típusa: Részleges / teljes hálózat kiesés
A hiba kezdete: 2021.06.11 11:01:18
A hiba vége: 2021.06.11 14:14:00
A teljes kiesett idő: 03:12:42
-----------------------------------------------------------------------------
Az Ön érintett szolgáltatása:
(...)
-----------------------------------------------------------------------------
A hiba oka, leírása:
A RackForest gerinchálózata VxLAN alapú BGP EVPN control plane-el és helyszínenkénti route reflektorokkal. Ugyanaz a hiba lépett fel mint az előző (RFTT/2021/NET/00005) hibajegyben, a BGP route reflektorok processzor terhelésének csökkentése nem volt elegendő a hiba ideiglenes megoldásához.A hiba ismetelten a BGP route reflektorokban lépett fel, bizonyos körülmények között egy-egy BGP session memória buffer hibával megszakadt és újraindult, de több esetben ilyenkor véletlenszerűen másik BGP session-ök is megszakadtak. Ennek az eredménye a route reflektorokban egy öngerjesztő processzor túlterhelés lett, mely miatt egy idő után már annyi BGP session szakadt meg ami már túllépte a redundancia tűrőképességét és részleges valamint teljes hálózati kieséseket okozott.
A hiba első felében (11:01 - 12:40 között) a jelenség ugyanaz volt mint délelőtt, a kiesések a RackForest hálózatában véletlenszerűen két hálózati eszköz között 1-2 percre megszakadó kapcsolatok formájában jelentkeztek.
A hiba második felében (12:50 - 14:14 között) már nagyobb kiesések és két teljes hálózat kiesés (13:16 - 13:18, valamint 13:38 - 13:48 között) jelentkezett.
A hiba javítása:
A hiba behatárolása után, mivel az eddigi megoldások nem vezettek eredményre, a BGP route reflektorokat azonos gyártmányú de dedikált eszközökre költöztettük, továbbá módosítottunk az eszközök control plane védelmi beállításain, nagyobb prioritást biztosítva a BGP protokollnak, növelve ezzel a hálózat stabilitását.
Majd végül (remélhetőleg):
Hibajegy száma: RFTT/2021/NET/00007
Érintett szolgáltatások: Internet (IP) kapcsolat / Hálózat
A hiba típusa: Részleges / teljes hálózat kiesés
A hiba kezdete: 2021.06.11 17:40:30
A hiba vége: 2021.06.11 18:41:00
A teljes kiesett idő: 01:00:30
-----------------------------------------------------------------------------
Az Ön érintett szolgáltatása:
(...)
-----------------------------------------------------------------------------
A hiba oka, leírása:
A RackForest gerinchálózata VxLAN alapú BGP EVPN control plane-el és helyszínenkénti route reflektorokkal. Hasonló hiba lépett fel mint az előző (RFTT/2021/NET/00005+6) hibajegyben, a BGP route reflektorok dedikált eszközökre költöztetése és processzor terhelésének csökkentése nem volt elegendő a hiba végleges megoldásához.A hiba a Victor Hugo utcai gerinchálózati switchek processzor túlterhelésével kezdődött, később a probléma megoldása közben a BGP route reflektorokban ismételten fellépett a korábbi hiba: Bizonyos körülmények között egy-egy BGP session memória buffer hibával megszakadt és újraindult, és több esetben ilyenkor véletlenszerűen másik BGP session-ök is megszakadtak. Ennek az eredménye a route reflektorokban egy öngerjesztő processzor túlterhelés lett, mely miatt egy idő után már annyi BGP session szakadt meg ami már túllépte a redundancia tűrőképességét és részleges valamint teljes hálózati kieséseket okozott.
A hiba alatt a jelenség ugyanaz volt mint az előző két hiba esetében: A kiesések a RackForest hálózatában véletlenszerűen két hálózati eszköz között megszakadó kapcsolatok formájában jelentkeztek, valamint 17:43 - 18:05 között teljes hálózat kiesés volt tapasztalható.
A hiba javítása:
A hiba behatárolása után, mivel az eddigi megoldások nem vezettek eredményre, a BGP route reflektorokat más gyártmányú dedikált eszközökre fogjuk cserélni, növelve ezzel a hálózat stabilitását. A két route reflektorból
az egyiket az éjszaka (23:00 - 02:00 között) már ki is cseréltük, a tartalék cseréje a következő napokban várható.Természetesen mindezek mellett felvesszük a kapcsolatot a hibás hálózati eszközök gyártójával, hogy a kérdéses BGP és BGP route reflektor funkciókal kapcsolatos szoftverhibát javítsák, de ez várhatóan nem lesz egy gyors folyamat, e miatt is döntöttünk úgy, hogy más gyártó eszközére cseréljük a problémás berendezéseket.