Провалът на Facebook показва защо не трябва да разчитаме на него за всичко
Ключови изводи
- Техническите проблеми на Facebook бяха за съжаление, но проблемът вероятно щеше да бъде разрешен много по-бързо, ако не разчиташе на толкова много взаимосвързани системи.
- Няма начин да предотвратите напълно системните повреди, но има начини да ги направите по-малко вероятни.
- Наличието на резервни планове за това кога (не ако, кога) дадена система се повреди може да направи разликата между „досадно“ и „катастрофално“.
Неотдавнашният провал във Facebook демонстрира как взаимосвързаните системи са длъжни да се провалят и защо не трябва да ги използваме за всичко.
Загуба на Facebook, WhatsApp и Instagram за няколко часа в понеделник беше неудобно, вредни за бизнеса, а в някои случаи, почти катастрофално. Според Facebook, всичко се дължи на промени в конфигурацията към неговите мрежови координиращи рутери.
Това е разумно обяснение, но фактът, че една такава грешка може да спре не само Facebook, но и други системи, собственост на Facebook, е малко тревожен.
Една грешна промяна в конфигурацията на рутера причини множество услуги и дори VR слушалки да спрат да работят напълно. Освен това, по собственото признание на Facebook, това също имаше каскаден ефект върху това как комуникират центровете за данни на компанията, спирайки всичките им услуги.
„Разчитането на взаимосвързани системи носи със себе си присъщ риск от отказ на системата или дори услуга“, казаха Франческо Алтомаре, старши технически инженер по продажбите в GlobalDots, в интервю по имейл с Lifewire,
„За да се противопоставят на този плашещ риск, компаниите използват и принципа на SRE (Инженеринг за надеждност на системата) като други инструменти, които се справят с различни нива на излишък, вградени във всеки слой на системата инфраструктура."
Какво може да се обърка
Струва си да се отбележи, че когато подобна система се провали, тя обикновено изисква перфектна буря от неща, които се объркат. Това е по-малко като къща от карти, която чака да падне, а повече като открит термичен изпускателен порт на космическа станция с размерите на малка луна.
Повечето компании предприемат стъпки, за да се опитат да гарантират, че единственото нещо, което може да хвърли всичко в хаос, никога не се случва – но независимо от това, това може да се случи.
„Неочакваните повреди са част от бизнеса и могат да възникнат в резултат на небрежност на работниците, неизправности в мрежата на доставчика на интернет услуги или дори проблеми с облачните услуги за съхранение“, казаха Сали Стивънс, съосновател на FastPeopleSearch, в интервю по имейл.
„...Докато необходимите стъпки за защита на системата – като архивиране, рутер на място и многостепенен достъп – са въведени на място, тези неуспехи са доста малко вероятни." Въпреки че дори и с армия от предпазни устройства, все още е възможно щифтът да провалят се.
Ако системата, която контролира неща като първични форми на контакт, уреди, врати и т.н., не успее, резултатите могат да бъдат значителни. От леко неудобство до напълно катастрофално, в зависимост от това колко хора и компании разчитат на всичко това.
„Също така съществува риск хакери да влязат в системата от някое от най-малко защитените устройства, като хладилници и тостери за фурна", добави Стивънс, "които биха могли да доведат до кражба на данни и рансъмуер“.
Как можем да се подготвим
Няма начин да се гарантира, че дадена система никога няма да се повреди, но има стъпки, които могат да бъдат предприети, за да се намали вероятността от повреда или да се отстрани по-гладко. Комбинация от двата подхода, която съчетава защита от отказ и противодействие с планове за извънредни ситуации и резервни системи, би била идеална.
„За елиминиране на тези опасности, създадени от продукти и услуги на трети страни, които се обработват ефективно, роли и задължения по отношение на управлението на риска от трети страни трябва да бъде строго очертано“, каза Даниела Сойер, основател и главен технологичен директор на Бързо намиране на хора, в интервю по имейл, „За да процъфтяват в тази нова среда, мениджърите на риска трябва да разберат основните части на такава сложна екосистема“.
Това, което се случи с Facebook, WhatsApp и Instagram, беше жалко, но и да се надяваме, че отваря очите. Хората, които разчитат на взаимосвързани системи, трябва да разберат, че правилното нещо, което се обърка, може да наруши всичко. И трябва да се въведат мерки (или да бъдат проверени и усъвършенствани), за да направят подобни смущения по-малко вероятни и по-малко въздействащи.
В случая на Facebook проблемът му не беше проблемите с рутера, а по-скоро почти цялата му екосистема, свързана с всичко останало. По този начин, след като Facebook (услугата) не работи, Facebook (компанията) трябваше да отдели много повече време и енергия, просто организирайки и решавайки проблема. Ако или не използваше толкова дълбоко вкоренена, взаимосвързана система, или имаше резервни планове за справяне с такъв срив, вероятно щеше да отнеме много по-малко време за отстраняване.