Porażka Facebooka pokazuje, dlaczego nie powinniśmy na nim polegać we wszystkim
Kluczowe dania na wynos
- Problemy techniczne Facebooka były niefortunne, ale problem prawdopodobnie zostałby rozwiązany znacznie szybciej, gdyby nie opierał się na tak wielu połączonych ze sobą systemach.
- Nie ma sposobu, aby całkowicie zapobiec awariom systemu, ale istnieją sposoby na zmniejszenie ich prawdopodobieństwa.
- Posiadanie planów tworzenia kopii zapasowych na wypadek (nie kiedy i kiedy) awarii systemu może stanowić różnicę między „irytującym” a „katastrofalnym”.
Niedawna klęska Facebooka pokazuje, jak połączone systemy mogą zawieść i dlaczego nie powinniśmy ich używać do wszystkiego.
Utrata Facebooka, WhatsAppa i Instagrama na kilka godzin w poniedziałek był niewygodny, szkodliwe dla firm, a w niektórych przypadkach prawie katastrofalne. Według Facebooka to wszystko przez zmiany w konfiguracji do swoich sieciowych routerów koordynujących.
To rozsądne wytłumaczenie, ale fakt, że pojedynczy błąd może spowodować zatrzymanie nie tylko Facebooka, ale i innych systemów należących do Facebooka, jest nieco niepokojący.
Jedna nieprawidłowa zmiana konfiguracji routera spowodowała, że wiele usług, a nawet zestawy słuchawkowe VR, całkowicie przestały działać. Co więcej, jak sam przyznaje Facebook, miało to również kaskadowy wpływ na komunikację między centrami danych firmy, powodując zatrzymanie wszystkich usług.
„Poleganie na połączonych systemach niesie ze sobą nieodłączne ryzyko awarii systemu, a nawet usługi”, powiedział Francesco Altomare, starszy inżynier techniczny ds. sprzedaży w GlobalDots, w e-mailowym wywiadzie dla Lifewire,
„Aby przeciwdziałać temu zniechęcającemu ryzyku, firmy stosują również zasadę SRE (Inżynieria niezawodności systemu) jako inne narzędzia, z których wszystkie zajmują się różnymi poziomami nadmiarowości wbudowanymi w każdą warstwę systemu infrastruktura."
Co może pójść źle
Warto zauważyć, że gdy taki system zawodzi, zwykle wymaga to doskonałej burzy rzeczy, które psują się. Mniej przypomina domek z kart czekający na upadek, a bardziej odsłonięty wylot termiczny na stacji kosmicznej wielkości małego księżyca.
Większość firm podejmuje kroki, aby upewnić się, że jedyna rzecz, która może pogrążyć wszystko w chaosie, nigdy się nie wydarzy — ale niezależnie od tego, może się wydarzyć.
„Nieoczekiwane awarie są częścią biznesu i mogą powstać w wyniku zaniedbań pracowników, usterek sieci dostawcy usług internetowych, a nawet problemów z usługami przechowywania w chmurze” – powiedział. Sally Stevens, współzałożyciel FastPeopleSearch, w e-mailowym wywiadzie.
„... Tak długo, jak zostaną podjęte niezbędne kroki w celu ochrony systemu — takie jak kopie zapasowe, router na miejscu i dostęp warstwowy miejsce, te awarie są dość mało prawdopodobne. „Chociaż nawet z armią bezpiecznych w razie awarii, nadal możliwe jest, aby podpora ponieść porażkę.
Jeśli system kontrolujący takie rzeczy jak podstawowe formy kontaktu, urządzenia, drzwi itp. zawiedzie, wyniki mogą być znaczące. Od łagodnych niedogodności do katastrofalnych katastrof, w zależności od tego, jak bardzo ludzie i firmy polegają na tym wszystkim.
„Istnieje również ryzyko dostania się hakerów do systemu z najmniej chronionych urządzeń, takich jak lodówki i tostery”, dodał Stevens, „co może prowadzić do kradzieży danych i ransomware."
Jak możemy się przygotować
Nie ma sposobu, aby zagwarantować, że system nigdy nie ulegnie awarii, ale istnieją kroki, które można podjąć, aby albo zmniejszyć prawdopodobieństwo awarii, albo sprawniej rozwiązać awarię. Idealne byłoby połączenie tych dwóch podejść, które łączą zabezpieczenia i środki zaradcze z planami awaryjnymi i systemami zapasowymi.
„W celu wyeliminowania tych zagrożeń stwarzanych przez produkty i usługi stron trzecich, które są skutecznie obsługiwane, role i obowiązki dotyczące zarządzania ryzykiem stron trzecich muszą być ściśle określone” – powiedziała Daniela Sawyer, założycielka i dyrektor ds. technologii z ZnajdźLudzieSzybko, w e-mailowym wywiadzie: „Aby rozwijać się w tym nowym otoczeniu, menedżerowie ryzyka muszą uchwycić podstawowe elementy tak wyrafinowanego ekosystemu”.
To, co stało się z Facebookiem, WhatsApp i Instagramem, było niefortunne, ale miejmy nadzieję, że otworzyło oczy. Ludzie, którzy polegają na połączonych systemach, muszą zrozumieć, że właściwa rzecz może zakłócić wszystko. Należy też wprowadzić środki (lub przeanalizować je i udoskonalić), aby takie zakłócenia były mniej prawdopodobne i miały mniejszy wpływ.
W przypadku Facebooka jego problemem nie były problemy z routerem, ale raczej posiadanie prawie całego ekosystemu połączonego ze wszystkim innym. W związku z tym, gdy Facebook (usługa) nie działał, Facebook (firma) musiał poświęcić znacznie więcej czasu i energii na samo zorganizowanie i rozwiązanie problemu. Gdyby albo nie korzystał z tak głęboko zakorzenionego, połączonego systemu, albo miał plany tworzenia kopii zapasowych, aby poradzić sobie z taką awarią, naprawa prawdopodobnie zajęłaby znacznie mniej czasu.