Facebooks misslyckande visar varför vi inte borde lita på det för allt

click fraud protection

Viktiga takeaways

  • Facebooks tekniska problem var olyckliga, men problemet skulle sannolikt ha lösts mycket snabbare om det inte förlitade sig på så många sammankopplade system.
  • Det finns inget sätt att förhindra systemfel helt, men det finns sätt att göra dem mindre sannolika.
  • Att ha backup-planer för när (inte om, när) ett system misslyckas kan göra skillnaden mellan "irriterande" och "katastrofalt."
En vit tummen ner-ikon på en svart tangentbordstangent.

fongfong2 / Getty Images

Det senaste Facebook-debaclet visar hur sammankopplade system är skyldiga att misslyckas och varför vi inte bör använda dem till allt.

Förlorade Facebook, WhatsApp och Instagram i flera timmar på måndag var obekvämt, skadar företagenoch i vissa fall, nästan katastrofalt. Enligt Facebook, allt berodde på konfigurationsändringar till sina nätverkskoordinerande routrar.

Det är en rimlig förklaring, men det faktum att ett enstaka fel som det kan få inte bara Facebook utan andra Facebook-ägda system att stanna är lite alarmerande.

En felaktig routerkonfigurationsändring gjorde att flera tjänster, och till och med VR-headset, slutade fungera helt. Utöver det hade det, enligt Facebooks eget medgivande, också en kaskadeffekt på hur företagets datacenter kommunicerar, vilket stoppade alla deras tjänster.

"Troendet på sammankopplade system medför en inneboende risk för system- eller till och med tjänstefel," sa Francesco Altomare, senior teknisk försäljningsingenjör på GlobalDots, i en e-postintervju med Lifewire,

"För att motverka denna skrämmande risk använder företag även principen om SRE (System Reliability Engineering). som andra verktyg, som alla hanterar olika nivåer av redundans inbyggd i varje lager av ett system infrastruktur."

Facebook visas på en smartphone, sittande bredvid en bärbar dator på ett glasbord.

Timothy Hales Bennett / Unsplash

Vad kan gå fel

Det är värt att notera att när ett sådant system misslyckas, kräver det vanligtvis en perfekt storm av saker som går fel. Det är mindre som ett korthus som väntar på att falla och mer som en exponerad termisk avgasport på en rymdstation stor som en liten måne.

De flesta företag vidtar åtgärder för att försöka se till att det enda som kan kasta allt i kaos aldrig händer – men oavsett så kan det hända.

"Oväntade misslyckanden är en del av verksamheten och kan uppstå som ett resultat av vårdslöshet från arbetare, fel i internetleverantörens nätverk eller till och med molnlagringstjänster som genomgår problem", sa Sally Stevens, medgrundare av FastPeopleSearch, i en e-postintervju.

"...Så länge som de nödvändiga stegen för att skydda systemet – som säkerhetskopior, router på plats och nivåstyrd åtkomst – läggs in plats, dessa misslyckanden är ganska osannolika." Även med en armé av säkerhetsskåp är det fortfarande möjligt för stiftet att misslyckas.

Om systemet som kontrollerar saker som primära kontaktformer, apparater, dörrar etc. misslyckas kan resultaten bli betydande. Från milda besvär till fullständigt katastrofala, beroende på hur mycket individer och företag förlitar sig på allt.

En grupp ingenjörer som möts runt ett bord på ett kontor.

Hinterhaus Productions / Getty Images

"Det finns också risk för att hackare kommer in i systemet från någon av de minst skyddade enheterna, såsom kylskåp och brödrostar, tillade Stevens, "vilket kan leda till datastöld och ransomware."

Hur vi kan förbereda oss

Det finns inget sätt att garantera att ett system aldrig kommer att misslyckas, men det finns åtgärder som kan vidtas för att antingen göra fel mindre sannolikt eller för att åtgärda fel smidigare. En kombination av de två tillvägagångssätten som kombinerar säkerhetsskåp och motåtgärder med beredskapsplaner och backupsystem skulle vara idealisk.

"För att eliminera dessa faror som skapas av tredjepartsprodukter och tjänster som hanteras effektivt, roller och uppgifter angående riskhantering från tredje part måste beskrivas strikt, säger Daniela Sawyer, grundare och teknisk chef. av Hitta människor snabbt, i en e-postintervju, "För att blomstra i dessa nya omgivningar måste riskhanterare förstå de väsentliga delarna av ett så sofistikerat ekosystem."

Det som hände med Facebook, WhatsApp och Instagram var olyckligt, men också förhoppningsvis ögonöppnande. Människor som förlitar sig på sammankopplade system måste förstå att det rätta som går fel kan störa allt. Och åtgärder måste vidtas (eller granskas och förfinas) för att göra sådana störningar mindre sannolika och mindre påverkande.

I Facebooks fall var dess problem inte routerproblemen, utan snarare att nästan hela sitt ekosystem var kopplat till allt annat. Således, med Facebook (tjänsten) nere, fick Facebook (företaget) lägga mycket mer tid och energi på att helt enkelt organisera och ta itu med problemet. Om det antingen inte använde ett så djupt rotat, sammankopplat system eller hade backupplaner på plats för att hantera ett sådant avbrott, skulle det troligen ha tagit mycket kortare tid att fixa.