Zlyhanie Facebooku ukazuje, prečo by sme sa naň nemali vo všetkom spoliehať
Kľúčové poznatky
- Technické problémy Facebooku boli nešťastné, ale problém by sa pravdepodobne vyriešil oveľa rýchlejšie, keby sa nespoliehal na toľko prepojených systémov.
- Neexistuje spôsob, ako úplne zabrániť zlyhaniam systému, existujú však spôsoby, ako ich znížiť.
- Mať plány zálohovania na to, kedy (nie ak, kedy) systém zlyhá, môže znamenať rozdiel medzi „otravným“ a „katastrofickým“.

fongfong2 / Getty Images
Nedávny debakel na Facebooku ukazuje, ako prepojené systémy nevyhnutne zlyhajú a prečo by sme ich nemali používať na všetko.
Strata Facebooku, WhatsAppu a Instagramu na niekoľko hodín v pondelok bolo nepohodlné, poškodzujúce podnikya v niektorých prípadoch takmer katastrofálne. Podľa Facebooku bolo to všetko kvôli zmenám v konfigurácii do svojich sieťových koordinačných smerovačov.
Je to rozumné vysvetlenie, ale skutočnosť, že jediná takáto chyba by mohla zastaviť nielen Facebook, ale aj iné systémy vlastnené Facebookom, je trochu alarmujúca.
Jedna nesprávna zmena konfigurácie smerovača spôsobila, že viaceré služby a dokonca aj náhlavné súpravy VR úplne prestali fungovať. Okrem toho, ako sám Facebook priznal, malo to tiež kaskádový efekt na to, ako komunikujú dátové centrá spoločnosti, čím sa zastavili všetky ich služby.
"Závislosť na prepojených systémoch so sebou prináša riziko zlyhania systému alebo dokonca služby," povedal Francesco Altomare, hlavný technický inžinier predaja v GlobalDots, v e-mailovom rozhovore pre Lifewire,
„Aby čelili tomuto odstrašujúcemu riziku, spoločnosti využívajú aj princíp SRE (System Reliability Engineering). ako iné nástroje, ktoré sa všetky zaoberajú rôznymi úrovňami redundancie zabudovanej do každej vrstvy systému infraštruktúru."

Timothy Hales Bennett / Unsplash
Čo sa môže pokaziť
Stojí za zmienku, že keď takýto systém zlyhá, zvyčajne si to vyžaduje dokonalú búrku vecí, ktoré sa pokazia. Je to menej ako domček z karát, ktorý čaká na pád a skôr ako odkrytý tepelný výfukový port na vesmírnej stanici veľkosti malého mesiaca.
Väčšina spoločností podniká kroky, aby sa pokúsila zabezpečiť, že jediná vec, ktorá by mohla všetko uvrhnúť do chaosu, sa nikdy nestane – ale bez ohľadu na to sa to môže stať.
„Neočakávané zlyhania sú súčasťou podnikania a môžu nastať v dôsledku nedbalosti pracovníkov, porúch v sieti poskytovateľa internetových služieb alebo dokonca problémov s cloudovými úložiskami,“ povedal. Sally Stevensová, spoluzakladateľ FastPeopleSearch, v e-mailovom rozhovore.
„...Pokiaľ sa zavedú potrebné kroky na ochranu systému – ako sú zálohy, smerovač na mieste a viacúrovňový prístup miesto, tieto zlyhania sú dosť nepravdepodobné." Aj keď aj s armádou bezpečnostných systémov je stále možné zlyhať.
Ak systém, ktorý riadi veci, ako sú primárne formy kontaktu, spotrebiče, dvere atď., zlyhá, výsledky môžu byť významné. Od miernych nepríjemností až po úplné katastrofické, podľa toho, ako veľmi sa na to jednotlivci a firmy spoliehajú.

Hinterhaus Productions / Getty Images
„Existuje tiež riziko, že sa hackeri dostanú do systému z niektorého z najmenej chránených zariadení, ako sú chladničky a hriankovače,“ dodal Stevens, „čo by mohlo viesť ku krádeži údajov a ransomvér."
Ako sa môžeme pripraviť
Neexistuje žiadny spôsob, ako zaručiť, že systém nikdy nezlyhá, existujú však kroky, ktoré je možné podniknúť na zníženie pravdepodobnosti zlyhania alebo na hladšie riešenie zlyhania. Ideálna by bola kombinácia týchto dvoch prístupov, ktorá spája bezpečnostné poistky a protiopatrenia s pohotovostnými plánmi a záložnými systémami.
„Za elimináciu týchto nebezpečenstiev vytvorených produktmi a službami tretích strán, s ktorými sa efektívne zaobchádza, rolami a povinnosťami pokiaľ ide o riadenie rizík tretích strán, musí byť prísne načrtnuté,“ povedala Daniela Sawyer, zakladateľka a hlavná technologická riaditeľka z FindPeopleFast, v e-mailovom rozhovore: "Aby manažéri rizík prekvitali v tomto novom prostredí, musia pochopiť základné časti takého sofistikovaného ekosystému."
To, čo sa stalo s Facebookom, WhatsAppom a Instagramom, bolo nešťastné, ale dúfajme, že aj oči otvárajúce. Ľudia, ktorí sa spoliehajú na vzájomne prepojené systémy, musia pochopiť, že nesprávna vec môže narušiť všetko. A musia byť zavedené opatrenia (alebo preskúmané a zdokonaľované), aby takéto narušenia boli menej pravdepodobné a menej účinné.
V prípade Facebooku neboli jeho problémom problémy s routerom, ale skôr prepojením takmer celého jeho ekosystému so všetkým ostatným. Keď teda Facebook (služba) nefungoval, musel Facebook (spoločnosť) tráviť oveľa viac času a energie jednoduchým organizovaním a riešením problému. Ak by buď nepoužil taký hlboko zakorenený, prepojený systém, alebo by mal zavedené záložné plány na riešenie takéhoto výpadku, oprava by pravdepodobne trvala oveľa menej času.