Facebooks fiasko viser, hvorfor vi ikke bør stole på det for alt

click fraud protection

Nøgle takeaways

  • Facebooks tekniske problemer var uheldige, men problemet ville sandsynligvis være blevet løst meget hurtigere, hvis det ikke var afhængigt af så mange sammenkoblede systemer.
  • Der er ingen måde at forhindre systemfejl fuldstændigt, men der er måder at gøre dem mindre sandsynlige.
  • At have backup-planer for hvornår (ikke hvis, hvornår) et system fejler, kan gøre forskellen mellem 'irriterende' og 'katastrofisk'.
Et hvidt tommelfinger ned-ikon på en sort tastaturtast.

fongfong2 / Getty Images

Det seneste Facebook-debacle demonstrerer, hvordan sammenkoblede systemer er bundet til at fejle, og hvorfor vi ikke bør bruge dem til alt.

At miste Facebook, WhatsApp og Instagram i flere timer på mandag var ubelejligt, skadelig for virksomhederog i nogle tilfælde, nærmest katastrofal. Ifølge Facebook, det hele skyldtes konfigurationsændringer til dets netværkskoordinerende routere.

Det er en rimelig forklaring, men det faktum, at en enkelt fejl som den kunne få ikke bare Facebook, men andre Facebook-ejede systemer til at gå i stå, er en smule alarmerende.

En forkert routerkonfigurationsændring fik flere tjenester, og endda VR-headset, til at holde helt op med at fungere. Oven i det havde det efter Facebooks egen indrømmelse også en kaskadeeffekt på, hvordan virksomhedens datacentre kommunikerer, hvilket bragte alle deres tjenester til at gå i stå.

"Tilhængigheden af ​​sammenkoblede systemer medfører en iboende risiko for system- eller endda servicefejl," sagde Francesco Altomare, senior teknisk salgsingeniør hos GlobalDots, i et e-mailinterview med Lifewire,

"For at imødegå denne skræmmende risiko bruger virksomheder også princippet om SRE (System Reliability Engineering). som andre værktøjer, der alle håndterer forskellige niveauer af redundans indbygget i hvert lag af et system infrastruktur."

Facebook vist på en smartphone, siddende ved siden af ​​en bærbar computer på et bord med glasplade.

Timothy Hales Bennett / Unsplash

Hvad kan gå galt

Det er værd at bemærke, at når et system som det fejler, kræver det normalt en perfekt storm af ting, der går galt. Det er mindre som et korthus, der venter på at falde og mere som en blotlagt termisk udstødningsport på en rumstation på størrelse med en lille måne.

De fleste virksomheder tager skridt til at forsøge at sikre, at den ene ting, der kunne kaste alt ud i kaos, aldrig sker - men uanset hvad, kan det ske.

"Uventede fejl er en del af forretningen og kan opstå som et resultat af arbejdstagerens uagtsomhed, fejl i internetudbyderens netværk eller endda cloud-lagringstjenester, der oplever problemer," sagde Sally Stevens, medstifter af FastPeopleSearch, i et e-mailinterview.

"...Så længe de nødvendige trin til at beskytte systemet - såsom sikkerhedskopier, on-site router og trindelt adgang - er sat i sted, er disse fejl ganske usandsynlige." Selvom selv med en hær af sikkerhedsbokse, er det stadig muligt for lynchpinen at svigte.

Hvis systemet, der styrer ting som primære kontaktformer, apparater, døre osv., svigter, kan resultaterne være betydelige. Fra mild besvær til fuldstændig katastrofal, afhængigt af hvor meget enkeltpersoner og virksomheder er afhængige af det hele.

En gruppe ingeniører mødes omkring et bord på et kontor.

Hinterhaus Productions / Getty Images

"Der er også risiko for, at hackere kommer ind i systemet fra nogen af ​​de mindst beskyttede enheder, såsom køleskabe og brødristere," tilføjede Stevens, "hvilket kan føre til datatyveri og ransomware."

Hvordan vi kan forberede os

Der er ingen måde at garantere, at et system aldrig vil fejle, men der er trin, der kan tages for enten at gøre fejl mindre sandsynlige eller for at løse fejl mere smidigt. En kombination af de to tilgange, der kombinerer fejlsikringer og modforanstaltninger med beredskabsplaner og backupsystemer, ville være ideel.

"For at eliminere disse farer skabt af tredjepartsprodukter og -tjenester, der håndteres effektivt, roller og pligter vedrørende tredjepartsrisikostyring skal være nøje skitseret," sagde Daniela Sawyer, grundlægger og teknologichef. af FindPeopleFast, i et e-mailinterview, "For at blomstre i disse nye omgivelser skal risikomanagere forstå de væsentlige dele af et så sofistikeret økosystem."

Det, der skete med Facebook, WhatsApp og Instagram, var uheldigt, men forhåbentlig også øjenåbnende. Folk, der er afhængige af sammenkoblede systemer, skal forstå, at det rigtige, der går galt, kan forstyrre alt. Og foranstaltninger skal indføres (eller granskes og forfines) for at gøre sådanne forstyrrelser mindre sandsynlige og mindre virkningsfulde.

I Facebooks tilfælde var dets problem ikke routerproblemerne, men snarere at næsten hele sit økosystem var forbundet med alt andet. Således med Facebook (tjenesten) nede, skulle Facebook (virksomheden) bruge meget mere tid og energi på blot at organisere og adressere problemet. Hvis det enten ikke brugte et så dybt rodfæstet, sammenkoblet system eller havde backup-planer på plads for at håndtere et sådant udfald, ville det sandsynligvis have taget langt mindre tid at rette op på.