Neúspěch Facebooku ukazuje, proč bychom na něj neměli ve všem spoléhat

click fraud protection

Klíčové věci

  • Technické potíže Facebooku byly nešťastné, ale problém by se pravděpodobně vyřešil mnohem rychleji, kdyby se nespoléhal na tolik propojených systémů.
  • Neexistuje způsob, jak zabránit selhání systému úplně, ale existují způsoby, jak je snížit pravděpodobnosti.
  • Mít plány zálohování na to, kdy (ne jestli, kdy) systém selže, může být rozdíl mezi „otravným“ a „katastrofickým“.
Bílá ikona palce dolů na černé klávese klávesnice.

fongfong2 / Getty Images

Nedávný debakl Facebooku ukazuje, jak propojené systémy nutně selžou a proč bychom je neměli používat na všechno.

Ztráta Facebooku, WhatsAppu a Instagramu na několik hodin v Pondělí bylo nepohodlné, poškozující podnikya v některých případech téměř katastrofální. Podle Facebooku to vše bylo způsobeno změnami konfigurace do svých síťových koordinačních směrovačů.

Je to rozumné vysvětlení, ale skutečnost, že jediná taková chyba by mohla zastavit nejen Facebook, ale i další systémy vlastněné Facebookem, je trochu alarmující.

Jedna špatná změna konfigurace routeru způsobila, že více služeb, a dokonce i VR náhlavní soupravy, zcela přestalo fungovat. Kromě toho, jak sám Facebook přiznává, mělo to také kaskádový efekt na to, jak komunikují datová centra společnosti, čímž se zastavily všechny jejich služby.

"Spoléhání se na propojené systémy s sebou nese přirozené riziko selhání systému nebo dokonce služby," řekl Francesco Altomare, vedoucí technický prodejní inženýr ve společnosti GlobalDots, v e-mailovém rozhovoru pro Lifewire,

"Aby čelily tomuto skličujícímu riziku, společnosti využívají také princip SRE (System Reliability Engineering). jako další nástroje, které se všechny zabývají různou úrovní redundance zabudované do každé vrstvy systému infrastruktura."

Facebook zobrazený na smartphonu, sedící vedle přenosného počítače na skleněném stolku.

Timothy Hales Bennett / Unsplash

Co se může pokazit

Stojí za zmínku, že když takový systém selže, obvykle to vyžaduje dokonalou smršť věcí, které se pokazí. Je to méně jako domeček z karet, který čeká na pád, a spíše jako odkrytý tepelný výfukový port na vesmírné stanici o velikosti malého měsíce.

Většina společností podniká kroky, aby se pokusila zajistit, že jediná věc, která by mohla všechno uvrhnout do chaosu, se nikdy nestane – ale bez ohledu na to se to stát může.

„Neočekávaná selhání jsou součástí podnikání a mohou nastat v důsledku nedbalosti pracovníků, chyb v síti poskytovatele internetových služeb nebo dokonce problémů se službami cloudového úložiště,“ řekl. Sally Stevensová, spoluzakladatel FastPeopleSearch, v e-mailovém rozhovoru.

„...Dokud budou provedeny nezbytné kroky k ochraně systému – jako jsou zálohy, směrovač na místě a víceúrovňový přístup místo, tato selhání jsou docela nepravděpodobná." I když i s armádou bezpečnostních bezpečnostních prvků je stále možné, aby selhat.

Pokud systém, který řídí věci, jako jsou primární formy kontaktu, spotřebiče, dveře atd., selže, výsledky mohou být významné. Od mírných nepříjemností až po úplné katastrofické, podle toho, jak moc na to jednotlivci a firmy spoléhají.

Skupina inženýrů se schází u stolu v kanceláři.

Hinterhaus Productions / Getty Images

„Existuje také riziko, že se hackeři dostanou do systému z některého z nejméně chráněných zařízení, jako jsou chladničky a toustovače,“ dodal Stevens, „což by mohlo vést ke krádeži dat a ransomware."

Jak se můžeme připravit

Neexistuje žádný způsob, jak zaručit, že systém nikdy neselže, ale existují kroky, které lze podniknout, aby bylo selhání méně pravděpodobné, nebo aby se selhání řešilo hladce. Ideální by byla kombinace těchto dvou přístupů, která spojuje zabezpečení proti selhání a protiopatření s pohotovostními plány a záložními systémy.

„Za eliminaci těchto nebezpečí vytvářených produkty a službami třetích stran, se kterými se efektivně zachází, rolemi a povinnostmi týkající se řízení rizik třetích stran musí být přísně nastíněno,“ řekla Daniela Sawyer, zakladatelka a hlavní technologická ředitelka z FindPeopleFast, v e-mailovém rozhovoru: "Aby manažeři rizik v tomto novém prostředí vzkvétali, musí pochopit podstatné části tak sofistikovaného ekosystému."

To, co se stalo s Facebookem, WhatsAppem a Instagramem, bylo nešťastné, ale doufejme, že také otevřelo oči. Lidé, kteří se spoléhají na propojené systémy, musí pochopit, že špatná věc může narušit vše. A musí být zavedena opatření (nebo prozkoumána a upřesněna), aby taková narušení byla méně pravděpodobná a měla menší dopad.

V případě Facebooku nebyly jeho problémem problémy s routerem, ale spíše s tím, že téměř celý jeho ekosystém je propojen se vším ostatním. Když tedy Facebook (služba) nefungoval, musel Facebook (společnost) vynaložit mnohem více času a energie na pouhé organizování a řešení problému. Pokud by buď nepoužil tak hluboce zakořeněný, propojený systém, nebo by měl k dispozici záložní plány pro řešení takového výpadku, oprava by pravděpodobně zabrala mnohem méně času.