Neuspeh Facebooka kaže, zakaj se ne bi smeli zanašati nanj za vse

click fraud protection

Ključni odvzemi

  • Facebookove tehnične težave so bile žalostne, vendar bi se težava verjetno rešila veliko hitreje, če se ne bi zanašal na toliko medsebojno povezanih sistemov.
  • Sistemskih okvar ni mogoče v celoti preprečiti, vendar obstajajo načini, kako jih zmanjšati.
  • Če imate rezervne načrte za to, kdaj (ne če, kdaj) sistem odpove, lahko naredite razliko med »nadležnim« in »katastrofalnim«.
Bela ikona s palcem navzdol na črni tipki tipkovnice.

fongfong2 / Getty Images

Nedavni debakel na Facebooku dokazuje, kako medsebojno povezani sistemi zagotovo ne bodo uspeli in zakaj jih ne bi smeli uporabljati za vse.

Izguba Facebooka, WhatsAppa in Instagrama za nekaj ur v ponedeljek bilo neprijetno, škodujejo podjetjemin v nekaterih primerih, skoraj katastrofalno. Glede na Facebook, vse je bilo zaradi sprememb konfiguracije svojim usmerjevalnikom za koordinacijo omrežja.

To je razumna razlaga, a dejstvo, da bi ena sama napaka, kot je ta, lahko ustavila ne samo Facebook, ampak tudi druge sisteme v lasti Facebooka, je nekoliko zaskrbljujoče.

Ena napačna sprememba konfiguracije usmerjevalnika je povzročila, da so številne storitve in celo slušalke VR popolnoma prenehale delovati. Poleg tega je po lastnem priznanju Facebooka imel tudi kaskadni učinek na to, kako komunicirajo podatkovni centri podjetja, s čimer so se vse njihove storitve ustavile.

"Zanašanje na medsebojno povezane sisteme nosi s seboj inherentno tveganje izpada sistema ali celo storitev," je dejal. Francesco Altomare, višji tehnični prodajni inženir pri GlobalDots, v e-poštnem intervjuju za Lifewire,

"Za preprečevanje tega zastrašujočega tveganja podjetja uporabljajo tudi načelo SRE (inženiring sistemske zanesljivosti) kot druga orodja, ki se ukvarjajo z različnimi ravnmi redundance, vgrajenimi v vsako plast sistema infrastrukturo."

Facebook je prikazan na pametnem telefonu, ki sedi poleg prenosnega računalnika na stekleni mizi.

Timothy Hales Bennett / Unsplash

Kaj lahko gre narobe

Omeniti velja, da ko tak sistem odpove, običajno zahteva popolno nevihto stvari, ki gredo narobe. Manj je kot hiša iz kart, ki čaka, da pade, in bolj kot izpostavljena toplotna izpušna odprtina na vesoljski postaji velikosti majhne lune.

Večina podjetij sprejme ukrepe, s katerimi poskuša zagotoviti, da se tista stvar, ki bi lahko vse vrgla v kaos, nikoli ne zgodi – a ne glede na to se lahko zgodi.

"Nepričakovane napake so del poslovanja in lahko nastanejo kot posledica malomarnosti delavcev, napak v omrežju ponudnika internetnih storitev ali celo težav s storitvami za shranjevanje v oblaku," je dejal. Sally Stevens, soustanovitelj FastPeopleSearch, v e-poštnem intervjuju.

"...Dokler so izvedeni potrebni koraki za zaščito sistema, kot so varnostne kopije, usmerjevalnik na kraju samem in stopenjski dostop na mestu, so te napake zelo malo verjetne." Čeprav je tudi z vojsko varnih pred napakami še vedno mogoče, da lynchpin ne uspe.

Če sistem, ki nadzoruje stvari, kot so primarne oblike stika, naprave, vrata itd., odpove, so lahko rezultati pomembni. Od blage neprijetnosti do popolne katastrofe, odvisno od tega, koliko se posamezniki in podjetja zanašajo na vse to.

Skupina inženirjev se sreča za mizo v pisarni.

Hinterhaus Productions / Getty Images

"Obstaja tudi tveganje, da hekerji vstopijo v sistem iz katere koli od najmanj zaščitenih naprav, kot so hladilniki in toasterji v pečici," je dodal Stevens, "kar bi lahko vodilo do kraje podatkov in ransomware."

Kako se lahko pripravimo

Ne moremo zagotoviti, da sistem nikoli ne bo odpovedal, vendar je mogoče sprejeti korake, s katerimi zmanjšamo verjetnost napake ali pa bolj gladko obravnavamo napako. Idealna bi bila kombinacija obeh pristopov, ki združuje varnostne ukrepe in protiukrepe z načrti za izredne razmere in rezervnimi sistemi.

"Za odpravo teh nevarnosti, ki jih povzročajo izdelki in storitve tretjih oseb, ki se učinkovito obravnavajo, vloge in dolžnosti glede upravljanja tveganj tretjih oseb je treba strogo začrtati," je povedala Daniela Sawyer, ustanoviteljica in vodja tehnologije od Hitro najdi ljudi, v intervjuju po e-pošti: "Da bi uspeli v tem novem okolju, morajo upravljavci tveganj razumeti bistvene dele tako prefinjenega ekosistema."

Kar se je zgodilo s Facebookom, WhatsAppom in Instagramom, je bilo žalostno, a upajmo, da je tudi odprlo oči. Ljudje, ki se zanašajo na medsebojno povezane sisteme, morajo razumeti, da lahko prava stvar, ki gre narobe, moti vse. Uvesti je treba ukrepe (ali preučiti in izboljšati), da bodo takšne motnje manj verjetne in manj vplivne.

V primeru Facebooka njegova težava niso bile težave z usmerjevalnikom, temveč v tem, da je skoraj celoten njegov ekosistem povezan z vsem drugim. Tako je moral Facebook (podjetje), ko je Facebook (storitev) prenehal, porabiti veliko več časa in energije za preprosto organizacijo in obravnavanje težave. Če bodisi ne bi uporabljal tako globoko zakoreninjenega, medsebojno povezanega sistema ali bi imel vzpostavljene rezervne načrte za reševanje takšnega izpada, bi verjetno potrebovalo veliko manj časa za popravilo.