Провал Facebook показывает, почему мы не должны полагаться на него во всем

click fraud protection

Ключевые выводы

  • Технические проблемы Facebook были досадными, но проблема, вероятно, была бы решена намного быстрее, если бы он не полагался на такое количество взаимосвязанных систем.
  • Невозможно полностью предотвратить сбои системы, но есть способы снизить их вероятность.
  • Наличие планов резервного копирования на случай, когда (а не на случай, когда) система выйдет из строя, может сделать разницу между «раздражающим» и «катастрофическим».
Белый значок большого пальца вниз на черной клавише клавиатуры.

fongfong2 / Getty Images

Недавний провал Facebook демонстрирует, как взаимосвязанные системы обречены на провал и почему мы не должны использовать их для всего.

Потеря Facebook, WhatsApp и Instagram на несколько часов в понедельник было неудобно, наносит ущерб бизнесу, а в некоторых случаях почти катастрофический. Согласно Facebook, это все из-за изменений конфигурации к своим маршрутизаторам, координирующим сеть.

Это разумное объяснение, но тот факт, что одна подобная ошибка может остановить не только Facebook, но и другие системы, принадлежащие Facebook, немного настораживает.

Одно неверное изменение конфигурации маршрутизатора привело к тому, что несколько сервисов и даже гарнитуры VR полностью перестали работать. Вдобавок ко всему, по собственному признанию Facebook, это также оказало каскадное влияние на то, как взаимодействуют центры обработки данных компании, остановив все их услуги.

«Зависимость от взаимосвязанных систем влечет за собой неотъемлемый риск сбоя системы или даже отказа службы», - сказал он. Франческо Альтомаре, старший технический инженер по продажам GlobalDots, в интервью по электронной почте для Lifewire,

«Чтобы противостоять этому устрашающему риску, компании также используют принцип SRE (System Reliability Engineering). как и другие инструменты, которые имеют дело с различными уровнями избыточности, встроенными в каждый уровень системы инфраструктура ".

Facebook отображается на смартфоне, сидящем рядом с портативным компьютером на столе со стеклянной столешницей.

Тимоти Хейлз Беннетт / Unsplash

Что может пойти не так

Стоит отметить, что, когда такая система выходит из строя, обычно требуется идеальный шторм, когда что-то идет не так. Это не так похоже на карточный домик, ожидающий падения, а больше на открытый порт теплового выхлопа на космической станции размером с небольшую луну.

Большинство компаний предпринимают шаги, чтобы гарантировать, что единственное, что может повергнуть все в хаос, никогда не произойдет, но, тем не менее, это может произойти.

«Неожиданные сбои являются частью бизнеса и могут возникнуть в результате халатности сотрудников, сбоев в сети интернет-провайдера или даже проблем с облачными хранилищами», - сказал он. Салли Стивенс, соучредитель FastPeopleSearch, в интервью по электронной почте.

"... Если необходимые шаги для защиты системы, такие как резервное копирование, локальный маршрутизатор и многоуровневый доступ, включены место, эти сбои весьма маловероятны. " неудача.

Если система, которая контролирует такие вещи, как основные формы контактов, приборы, двери и т. Д., Выйдет из строя, результаты могут быть значительными. От легкого неудобства до полной катастрофы, в зависимости от того, насколько люди и компании полагаются на все это.

Группа инженеров встречается за столом в офисе.

Hinterhaus Productions / Getty Images

"Также существует риск того, что хакеры проникнут в систему с любого из наименее защищенных устройств, таких как холодильники и тостеры для духовок, - добавил Стивенс, - что может привести к краже данных и программа-вымогатель ".

Как мы можем подготовиться

Невозможно гарантировать, что система никогда не выйдет из строя, но есть шаги, которые можно предпринять, чтобы либо снизить вероятность отказа, либо более плавно устранить сбой. Сочетание двух подходов, сочетающих отказоустойчивость и меры противодействия с планами на случай непредвиденных обстоятельств и системами резервного копирования, было бы идеальным.

"Для устранения этих опасностей, создаваемых сторонними продуктами и услугами, которые эффективно обрабатываются, роли и обязанности в отношении управления рисками третьих лиц должны быть строго изложены ", - сказала Даниэла Сойер, основатель и технический директор. из Найти людейБыстрыйв интервью по электронной почте: «Чтобы процветать в этой новой среде, риск-менеджеры должны понимать основные части такой сложной экосистемы».

То, что произошло с Facebook, WhatsApp и Instagram, было прискорбным, но, надеюсь, открывшим глаза. Люди, которые полагаются на взаимосвязанные системы, должны понимать, что если что-то идет не так, как надо, может все нарушить. И должны быть приняты меры (или тщательно изучены и уточнены), чтобы сделать такие сбои менее вероятными и менее эффективными.

В случае с Facebook проблема заключалась не в проблемах с маршрутизатором, а в том, что почти вся его экосистема была подключена ко всему остальному. Таким образом, с отключением Facebook (службы) Facebook (компании) пришлось тратить гораздо больше времени и энергии на простую организацию и решение проблемы. Если бы он либо не использовал такую ​​глубоко укоренившуюся взаимосвязанную систему, либо имел планы резервного копирования на случай подобного сбоя, на исправление, вероятно, потребовалось бы гораздо меньше времени.