Lessen uit een echt noodherstel: u moet eerst het netwerk herstellen

Klik voor meer informatie over auteur W. Curtis Preston.

Onder dwang gedwongen worden om een ​​volledig noodherstel uit te voeren, is ongelooflijk moeilijk; het is ook een geweldige manier om te leren. Op mijn Herstel het allemaal podcastInterviewde ik onlangs een IT-professional die de man op de grond was nadat een orkaan het eiland had vernield waar zijn bedrijf twee datacenters had gehost. Hoewel het herstel uiteindelijk succesvol was, hebben ze gaandeweg een aantal lessen geleerd, en ik dacht dat deze lessen een geweldige serie artikelen zouden kunnen zijn. Dit eerste artikel in de serie gaat in op de netwerklessen die in deze praktijkoefening zijn geleerd.

De persoon sprak op voorwaarde van anonimiteit, dus ik zal zijn echte naam of de naam van zijn bedrijf niet gebruiken. We zullen hem Ron noemen. Maar hij is een echt persoon en dit was een echte ramp. Je kunt het eerste deel van zijn interview horen hier.

Als je aanneemt …

Het zou voor de lezer geen verrassing moeten zijn dat zonder een solide netwerkverbinding er niet veel zal gebeuren. Dit is de reden waarom zoveel bedrijven zoveel geld uitgeven aan zeer redundante netwerkverbindingen. tevens de hoeveelheid uitgegeven geld op deze verbindingen kunnen mensen ervan uitgaan dat ze altijd up zullen zijn. Die veronderstelling werd vernietigd op de dag dat de orkaan het eiland vernietigde. Niets werkte.

Toen Ron op het eiland verscheen, ontdekte hij dat ze zelfs de meest basale dingen niet konden doen, zoals inloggen op servers. Dit kwam doordat ze Active Directory gebruikten en vertrouwden op de Active Directory-services op het vasteland. Het vasteland was natuurlijk helemaal niet beschikbaar omdat de netwerkverbinding was uitgevallen.

Het is echt moeilijk om het herstel van uw servers te beginnen als u er niet op kunt inloggen. Er zijn veel services, waaronder back-up- en herstelservices waarvoor de gebruiker zich als zichzelf moet aanmelden. Dit betekent dat ze, hoewel ze mogelijk lokale beheerdersaccounts hadden, het back-upsysteem mogelijk niet konden uitvoeren als ze niet als zichzelf konden inloggen – waarvoor Active Directory nodig was.

Je wilt echt uw back-upsysteem gebruikers die inloggen als zichzelf. Dat betekent dat ze een betrouwbare verbinding nodig hebben. Je denkt misschien bij jezelf: “Natuurlijk hebben ze een betrouwbare verbinding nodig. Daarom hebben we dubbele verbindingen met internet! Als een van beide uitvalt, kunnen we de andere gebruiken. “

De 3-2-1 regel

Bij back-ups praten we vaak over de 3-2-1 regel, wat aangeeft dat u drie verschillende versies van uw gegevens op twee verschillende media wilt, waarvan er één off-site is. Ik denk dat we dit concept ook gemakkelijk kunnen aanpassen aan de netwerkinfrastructuur.

Het beste scenario zou zijn dat u drie verschillende netwerkverbindingen heeft met twee verschillende fysiek gescheiden verbindingen, waarvan er één een heel ander netwerktype gebruikt. Dit lijkt misschien overdreven, maar als het bedrijf dit vóór deze ramp had gedaan, zouden ze hun storing niet zo lang hebben verlengd als ze deden.

Wat ik hier bedoel, is dat hoewel het belangrijk is om over redundante fysieke verbindingen te beschikken, wat als die fysieke verbindingen beide hetzelfde type apparatuur gebruiken en uiteindelijk dezelfde provider gebruiken? Ze zullen niet veel worden gebruikt als het ergste gebeurt. U moet een andere manier zoeken om een ​​netwerkverbinding tot stand te brengen.

Hoe zit het met satelliet?

Satellietnetwerkverbindingen zijn historisch gezien niet de beste geweest voor een netwerkverbinding. Ze zijn duur en bieden doorgaans niet veel bandbreedte en hebben meestal een vreselijke latentie.

Ze begonnen een satellietverbinding te gebruiken om basisnetwerkconnectiviteit te bieden, zodat services zoals Active Directory zouden gaan werken. Het ging een tijdje zwoel voort, totdat de satellietverbinding op een gegeven moment in de loop van de dag bleef uitvallen.

De netwerkbeheerders keken naar de verbinding en vroegen zich af of het weer was. Verhinderen wolken hun verbinding met de satelliet? Is er een ander lokaal probleem waardoor ze deze verbinding niet kunnen gebruiken?

Het probleem bleek een dagelijkse netwerklimiet te zijn. Zodra ze de dop hadden bereikt, zou hun netwerkverbinding zo langzaam worden dat het bijna leek te zijn uitgeschakeld.

Dit deel van het verhaal is waarom ik denk dat het nieuwe is Starlink-service van Elon Musk ziet er echt bemoedigend uit. Met behulp van een groot aantal satellieten met een lage baan zijn ze in staat om een ​​netwerkverbinding te bieden van 100-200 Mbs met een latentie van 20-30 ms. De service is momenteel in bèta en ziet er op een aantal manieren veelbelovend uit. Dit zou internet naar plattelandsgebieden en eilanden kunnen brengen en kan ook een goedkope back-upinternetverbinding voor elk bedrijf opleveren. Deze netwerkverbinding zou volledig onafhankelijk zijn van al het andere dat uw bedrijf doet.

Bekijk die graafmachines

Naarmate het herstel vorderde, begonnen ze microgolfverbindingen te gebruiken met een centrale netwerkfaciliteit die hen een netwerkverbinding met het vasteland gaf. Dat was ook niet bepaald perfect.

Microgolftransmissies vereisen een gezichtslijn tussen zender en ontvanger. Dit kan ook betekenen dat u meerdere relaysites nodig heeft tussen u en de internetverbinding die u probeert te gebruiken. Hoewel dit duidelijke latentieproblemen heeft, betekent dit ook dat elke relay-site een enkel storingspunt is.

Stel je voor dat er meerdere single-point-of-failure zijn tussen jou en je internetverbinding, terwijl tegelijkertijd iedereen op de sites probeert hun bestaan ​​weer op te lossen. Dit vereist allerlei soorten zwaar materieel (bijv. Graafmachines) die vaak evenveel pijn kunnen doen als helpen. Ze kunnen de stroom uitvallen en gebouwen destabiliseren, waardoor ze vallen en de microgolfverbinding instabiel wordt. Ron zei dat deze afhankelijkheid van de lokale fysieke infrastructuur vaak gekmakend was.

Ik moet denken aan een toespraak die ik ooit zag van de CIO van Denver International Airport. Vanuit haar kantoor kon ze in één oogopslag bijna het hele vliegveld zien. Elke keer dat ze een netwerkprobleem zou hebben, pakte ze onmiddellijk een verrekijker en keek uit haar raam naar graafmachines. Ze zei dat ongeveer de helft van de tijd dat ze een netwerkprobleem hadden, werd veroorzaakt door een van hen.

Plan voor het ergste

Ik ben een back-up expert, geen netwerkexpert, en ik neem niet aan u uw baan te vertellen. Het enige wat ik wilde doen, was u uw denken opnieuw te laten onderzoeken in het licht van deze ramp. Hoe zou uw redundante netwerkverbinding werken als u alleen stroom had voor uw gebouw via generatoren, maar geen stroom voor de omliggende gebouwen die de routers die u gebruikt zou kunnen hosten? (Ik heb het niet over uw routers, let wel. Ik heb het over de routers van je ISP.)

Heb je ooit een heel ander type netwerkverbinding overwogen die misschien beter bestand is tegen een echte ramp? Heb je satelliet- of microgolfnetwerken onderzocht? Misschien is het nu een tijd om naar deze alternatieven te kijken, zodat u de infrastructuur kunt opzetten voordat er iets gebeurt. Misschien kunt u een basisvergoeding betalen voor de verbinding, die u vervolgens kunt opvoeren als u die verbinding daadwerkelijk actief moet gebruiken.

Neem een ​​paar minuten de tijd en denk na over eventuele aannames die u in uw netwerkontwerp doet die mogelijk niet waar zijn als alles om u heen wordt vernietigd. Als zoiets als een overstroming, orkaan of terroristische aanslag alle infrastructuur om je heen wegneemt, hoe zou je dan met de buitenwereld communiceren? Als je antwoord ‘ik heb geen idee’ is, moet je daar misschien naar kijken.

Table of Contents

Vragen voor onze consultants?

Twijfel niet en neem direct contact met ons op met uw vraagstuk.