Facebook neveiksme parāda, kāpēc mums nevajadzētu paļauties uz to visās lietās

click fraud protection

Key Takeaways

  • Facebook tehniskās problēmas bija neveiksmīgas, taču problēma, visticamāk, būtu atrisināta daudz ātrāk, ja tas nebūtu balstīts uz tik daudzām savstarpēji saistītām sistēmām.
  • Nav iespējams pilnībā novērst sistēmas kļūmes, taču ir veidi, kā samazināt to iespējamību.
  • Ja ir rezerves plāni, kad (nevis tad, kad) sistēma neizdodas, var būt atšķirība starp “kaitinošu” un “katastrofālu”.
Balta īkšķa ikona uz melna tastatūras taustiņa.

fongfong2 / Getty Images

Nesenā Facebook sagrāve parāda, kā savstarpēji saistītās sistēmas var neizdoties un kāpēc mums nevajadzētu tās izmantot visam.

Facebook, WhatsApp un Instagram zaudēšana uz vairākām stundām pirmdien bija neērti, kaitē uzņēmumiemun dažos gadījumos gandrīz katastrofāla. Saskaņā ar Facebook, tas viss bija konfigurācijas izmaiņu dēļ tīkla koordinējošajiem maršrutētājiem.

Tas ir saprātīgs izskaidrojums, taču fakts, ka viena līdzīga kļūda var apturēt ne tikai Facebook, bet arī citu Facebook piederošo sistēmu darbību, ir nedaudz satraucošs.

Viena nepareiza maršrutētāja konfigurācijas maiņa izraisīja vairāku pakalpojumu un pat VR austiņu darbības pārtraukšanu. Turklāt, pēc paša Facebook atzīšanas, tam bija arī kaskādes ietekme uz uzņēmuma datu centru saziņu, apturot visus viņu pakalpojumus.

"Paļaušanās uz savstarpēji savienotām sistēmām rada raksturīgu sistēmas vai pat pakalpojuma kļūmes risku," sacīja Frančesko Altomare, GlobalDots vecākais tehniskais pārdošanas inženieris, e-pasta intervijā Lifewire,

"Lai novērstu šo biedējošo risku, uzņēmumi izmanto arī SRE (System Reliability Engineering) principu. tāpat kā citi rīki, kas visi nodarbojas ar dažādu līmeņu dublēšanu, kas iebūvēta katrā sistēmas slānī infrastruktūra."

Facebook tiek rādīts viedtālrunī, sēžot blakus klēpjdatoram uz stikla virsmas.

Timotijs Heilss Benets / Unsplash

Kas var noiet greizi

Ir vērts atzīmēt, ka tad, kad šāda sistēma neizdodas, parasti ir nepieciešama pilnīga vētra, kas notiek nepareizi. Tas ir mazāk kā kāršu namiņš, kas gaida kritienu, un vairāk kā atklāta termiskās izplūdes atvere kosmosa stacijā maza mēness lielumā.

Lielākā daļa uzņēmumu veic pasākumus, lai mēģinātu nodrošināt, lai nekad nenotiktu viena lieta, kas varētu visu iemest haosā, taču, neskatoties uz to, tas var notikt.

"Negaidītas kļūmes ir daļa no uzņēmējdarbības un var rasties darbinieku nolaidības, interneta pakalpojumu sniedzēja tīkla kļūmju vai pat mākoņu krātuves pakalpojumu problēmu dēļ," sacīja Sallija Stīvensa, FastPeopleSearch līdzdibinātājs, e-pasta intervijā.

"...Kamēr tiek veikti nepieciešamie pasākumi, lai aizsargātu sistēmu, piemēram, dublējumkopijas, uz vietas esošais maršrutētājs un daudzpakāpju piekļuve vietā, šīs neveiksmes ir diezgan maz ticamas." Lai gan pat ar atteices drošinātāju armiju joprojām ir iespējams neizdoties.

Ja sistēma, kas kontrolē tādas lietas kā primārie kontaktu veidi, ierīces, durvis utt., neizdodas, rezultāti var būt nozīmīgi. No vieglām neērtībām līdz pilnīgai katastrofai atkarībā no tā, cik lielā mērā indivīdi un uzņēmumi uz to visu paļaujas.

Inženieru grupa tiekas ap galdu birojā.

Hinterhaus Productions / Getty Images

"Pastāv arī risks, ka hakeri var iekļūt sistēmā no jebkuras vismazāk aizsargātās ierīces, piemēram, ledusskapji un cepeškrāsns tosteri," piebilda Stīvenss, "kas var izraisīt datu zādzību un izpirkuma programmatūra."

Kā mēs varam sagatavoties

Nav iespējams garantēt, ka sistēma nekad neizdosies, taču ir darbības, kuras var veikt, lai samazinātu kļūmes iespējamību vai arī novērstu kļūmes raitāk. Ideāla būtu abu pieeju kombinācija, kas apvieno atteices un pretpasākumus ar ārkārtas rīcības plāniem un rezerves sistēmām.

"Lai novērstu šos apdraudējumus, ko rada trešās puses produkti un pakalpojumi, kuri tiek efektīvi apstrādāti, lomas un pienākumi attiecībā uz trešo pušu riska pārvaldību ir jābūt stingri izklāstītai," sacīja Daniela Sojere, dibinātāja un tehnoloģiju vadītāja. no Ātri atrodiet cilvēkus, e-pasta intervijā: "Lai uzplauktu šajā jaunajā vidē, riska pārvaldītājiem ir jāsaprot šādas sarežģītas ekosistēmas būtiskās daļas."

Tas, kas notika ar Facebook, WhatsApp un Instagram, bija neveiksmīgs, bet, cerams, arī acis atverošs. Cilvēkiem, kuri paļaujas uz savstarpēji saistītām sistēmām, ir jāsaprot, ka pareizi noiet greizi, var visu izjaukt. Un ir jāievieš (vai rūpīgi jāpārbauda un jāuzlabo) pasākumi, lai šādu traucējumu iespējamība un ietekme būtu mazāka.

Facebook gadījumā tā problēma nebija maršrutētāja problēmas, bet gan gandrīz visa tā ekosistēma, kas saistīta ar visu pārējo. Tādējādi, kad Facebook (pakalpojums) nedarbojās, Facebook (uzņēmumam) bija jātērē daudz vairāk laika un enerģijas, vienkārši organizējot un risinot problēmu. Ja tas vai nu neizmantotu tik dziļi iesakņojušos, savstarpēji saistītu sistēmu, vai arī būtu izstrādāti rezerves plāni, lai risinātu šādu pārtraukumu, visticamāk, to novēršana būtu prasījusi daudz mazāk laika.