Het falen van Facebook laat zien waarom we er niet voor alles op moeten vertrouwen

December 02, 2021
InNieuws Sociale Media

Belangrijkste leerpunten

De technische problemen van Facebook waren ongelukkig, maar het probleem zou waarschijnlijk veel sneller zijn opgelost als het niet op zoveel onderling verbonden systemen had vertrouwd.
Er is geen manier om systeemstoringen volledig te voorkomen, maar er zijn manieren om ze minder waarschijnlijk te maken.
Het hebben van back-upplannen voor wanneer (niet of, wanneer) een systeem faalt, kan het verschil maken tussen 'vervelend' en 'catastrofaal'.

Een wit duim omlaag pictogram op een zwarte toets op het toetsenbord. — fongfong2 / Getty Images

Het recente Facebook-debacle laat zien hoe onderling verbonden systemen gedoemd zijn te mislukken en waarom we ze niet voor alles zouden moeten gebruiken.

Facebook, WhatsApp en Instagram enkele uren kwijt op maandag was onhandig, schadelijk voor bedrijven, en in sommige gevallen bijna catastrofaal. Volgens Facebook, het was allemaal te wijten aan configuratiewijzigingen naar zijn netwerkcoördinerende routers.

Het is een redelijke verklaring, maar het feit dat zo'n enkele fout niet alleen Facebook, maar ook andere systemen van Facebook tot stilstand zou kunnen brengen, is een beetje alarmerend.

Een verkeerde wijziging van de routerconfiguratie zorgde ervoor dat meerdere services en zelfs VR-headsets helemaal niet meer werkten. Bovendien had Facebook, zoals Facebook zelf toegeeft, ook een trapsgewijze effect op de manier waarop de datacenters van het bedrijf communiceren, waardoor al hun diensten werden stopgezet.

"De afhankelijkheid van onderling verbonden systemen brengt een inherent risico met zich mee van systeem- of zelfs servicestoringen", zei Francesco Altomare, senior technisch verkoopingenieur bij GlobalDots, in een e-mailinterview met Lifewire,

"Om dit enorme risico tegen te gaan, gebruiken bedrijven ook het principe van SRE (System Reliability Engineering) zoals andere tools, die allemaal omgaan met verschillende niveaus van redundantie ingebouwd in elke laag van een systeem infrastructuur."

Facebook weergegeven op een smartphone, zittend naast een laptopcomputer op een glazen tafel. — Timothy Hales Bennett / Unsplash

Wat kan verkeerd gaan

Het is vermeldenswaard dat wanneer een dergelijk systeem faalt, het meestal een perfecte storm van dingen vereist die fout gaan. Het is minder als een kaartenhuis dat wacht om te vallen en meer als een blootgestelde thermische uitlaatpoort op een ruimtestation ter grootte van een kleine maan.

De meeste bedrijven ondernemen stappen om ervoor te zorgen dat het enige dat alles in chaos zou kunnen storten, nooit gebeurt, maar hoe dan ook, het kan gebeuren.

"Onverwachte storingen maken deel uit van het bedrijfsleven en kunnen optreden als gevolg van nalatigheid van werknemers, fouten in het netwerk van internetserviceproviders of zelfs problemen met cloudopslagservices", zei Sally Stevens, mede-oprichter van FastPeopleSearch, in een e-mailinterview.

"...Zolang de nodige stappen om het systeem te beschermen, zoals back-ups, on-site router en gelaagde toegang, worden genomen plaats, deze mislukkingen zijn vrij onwaarschijnlijk." Hoewel zelfs met een leger van fail-safes, is het nog steeds mogelijk voor de spil om mislukking.

Als het systeem dat zaken als primaire vormen van contact, apparaten, deuren, enz. bestuurt, faalt, kunnen de resultaten aanzienlijk zijn. Van mild ongemak tot volledig catastrofaal, afhankelijk van hoeveel individuen en bedrijven erop vertrouwen.

Een groep ingenieurs ontmoeten elkaar rond een tafel in een kantoor. — Hinterhaus Productions / Getty Images

"Er is ook het risico dat hackers het systeem binnendringen vanaf een van de minst beschermde apparaten, zoals koelkasten en broodroosters”, voegde Stevens eraan toe, “wat kan leiden tot gegevensdiefstal en ransomware."

Hoe we ons kunnen voorbereiden

Er is geen manier om te garanderen dat een systeem nooit zal falen, maar er zijn stappen die kunnen worden genomen om de kans op een storing te verkleinen of om storingen soepeler op te lossen. Een combinatie van de twee benaderingen die fail-safes en tegenmaatregelen combineert met rampenplannen en back-upsystemen zou ideaal zijn.

"Voor het elimineren van deze gevaren die worden veroorzaakt door producten en diensten van derden die effectief worden afgehandeld, rollen en taken met betrekking tot risicobeheer door derden moet strikt worden uiteengezet", zegt Daniela Sawyer, oprichter en chief technology officer van ZoekMensenSnel, in een e-mailinterview: "Om in deze nieuwe omgeving te kunnen bloeien, moeten risicomanagers de essentiële onderdelen van zo'n geavanceerd ecosysteem begrijpen."

Wat er gebeurde met Facebook, WhatsApp en Instagram was ongelukkig, maar hopelijk ook eye-openend. Mensen die afhankelijk zijn van onderling verbonden systemen, moeten begrijpen dat het juiste ding dat fout gaat, alles kan verstoren. En er moeten maatregelen worden genomen (of onderzocht en verfijnd) om dergelijke verstoringen minder waarschijnlijk en minder impactvol te maken.

In het geval van Facebook was het probleem niet de problemen met de router, maar eerder dat bijna het hele ecosysteem met al het andere was verbonden. Dus met Facebook (de dienst) uit de lucht, moest Facebook (het bedrijf) veel meer tijd en energie besteden aan het organiseren en aanpakken van het probleem. Als het ofwel niet zo'n diepgeworteld, onderling verbonden systeem had gebruikt of back-upplannen had om een dergelijke storing op te lossen, zou het waarschijnlijk veel minder tijd hebben gekost om het op te lossen.