Провал Facebook показує, чому ми не повинні покладатися на нього у всьому

click fraud protection

Ключові речі на винос

  • Технічні проблеми Facebook були невдалими, але проблема, ймовірно, була б вирішена набагато швидше, якби вона не покладалася на таку кількість взаємопов’язаних систем.
  • Повністю запобігти збоям системи неможливо, але є способи зменшити їх ймовірність.
  • Наявність планів резервного копіювання на те, коли (а не якщо, коли) система виходить з ладу, може змінити між «дратує» і «катастрофічно».
Білий значок великого пальця вниз на чорній клавіші клавіатури.

fongfong2 / Getty Images

Нещодавня катастрофа Facebook демонструє, як взаємопов’язані системи можуть вийти з ладу і чому ми не повинні використовувати їх для всього.

Втрата Facebook, WhatsApp та Instagram на кілька годин в понеділок було незручно, завдають шкоди підприємствам, а в деяких випадках, майже катастрофічно. За даними Facebook, це все через зміни конфігурації до своїх маршрутизаторів, що координують мережу.

Це розумне пояснення, але той факт, що одна така помилка може зупинити роботу не тільки Facebook, а й інших систем, що належать Facebook, трохи насторожує.

Одна неправильна зміна конфігурації маршрутизатора призвела до того, що кілька служб і навіть гарнітури VR повністю перестали працювати. Крім того, за власним визнанням Facebook, це також вплинуло на те, як центри обробки даних компанії спілкуються, зупинивши всі їхні послуги.

«Залежність від взаємопов’язаних систем несе з собою невід’ємний ризик відмови системи або навіть служби», – сказав Франческо Альтомаре, старший інженер з технічних продажів у GlobalDots, в інтерв'ю електронною поштою Lifewire,

«Щоб протистояти цьому страшному ризику, компанії також використовують принцип SRE (System Reliability Engineering). як і інші інструменти, які мають справу з різними рівнями надмірності, вбудованим у кожен рівень системи інфраструктура».

Facebook відображається на смартфоні, сидячи біля ноутбука на скляному столі.

Тімоті Хейлз Беннетт / Unsplash

Що може піти не так

Варто зазначити, що коли така система виходить з ладу, це зазвичай вимагає ідеального шторму речей, які йдуть не так. Це менше схоже на картковий будиночок, що очікує падіння, а більше як на відкритий тепловий вихлопний порт на космічній станції розміром з маленький місяць.

Більшість компаній вживають заходів, щоб гарантувати, що єдина річ, яка може привести до хаосу, ніколи не станеться, але незважаючи на це, це може статися.

"Неочікувані збої є частиною бізнесу і можуть виникнути в результаті недбалості працівників, збоїв у мережі постачальника послуг Інтернету або навіть через проблеми з хмарним сховищем", - сказав він. Саллі Стівенс, співзасновник FastPeopleSearch, в інтерв’ю електронною поштою.

"...Поки будуть виконані необхідні кроки для захисту системи, наприклад резервне копіювання, локальний маршрутизатор і багаторівневий доступ місця, ці збої досить малоймовірні." Хоча навіть з армією безвідмовних систем, це все одно можливо невдача.

Якщо система, яка контролює такі речі, як основні форми контакту, прилади, двері тощо, виходить з ладу, результати можуть бути значними. Від легких незручностей до повних катастроф, залежно від того, наскільки люди та компанії покладаються на все це.

Група інженерів зустрічається за столом в офісі.

Hinterhaus Productions / Getty Images

«Також існує ризик проникнення хакерів у систему з будь-якого з найменш захищених пристроїв, наприклад, холодильники та тостери в духовці, — додав Стівенс, — що може призвести до крадіжки даних та програм-вимагач».

Як ми можемо підготуватися

Немає способу гарантувати, що система ніколи не вийде з ладу, але є кроки, які можна зробити, щоб або зменшити ймовірність збою, або вирішити проблему більш гладко. Ідеальною була б комбінація двох підходів, яка поєднує безвідмовність і контрзаходи з планами на випадок надзвичайних ситуацій та резервними системами.

«Для усунення цих небезпек, створених продуктами та послугами третіх сторін, які ефективно обробляються, ролі та обов’язки щодо управління ризиками третьої сторони необхідно чітко окреслити», - сказала Даніела Сойєр, засновник і технологічний директор з Швидко знайдіть людей, в інтерв’ю електронною поштою: «Щоб процвітати в цьому новому оточенні, менеджери з ризиків повинні зрозуміти основні частини такої складної екосистеми».

Те, що сталося з Facebook, WhatsApp та Instagram, було сумним, але, сподіваюся, також відкриває очі. Люди, які покладаються на взаємопов’язані системи, повинні розуміти, що правильна справа може порушити все. І необхідно вжити заходів (або ретельно перевіряти та вдосконалювати), щоб такі збої були менш імовірними та менш впливовими.

У випадку з Facebook його проблема полягала не в проблемах маршрутизатора, а в тому, що майже вся його екосистема була підключена до всього іншого. Таким чином, оскільки Facebook (сервіс) не працює, Facebook (компанії) довелося витрачати набагато більше часу та енергії на просто організацію та вирішення проблеми. Якби він або не використовував таку глибоко вкорінену взаємопов’язану систему, або не мав плани резервного копіювання для боротьби з подібними збоями, ймовірно, це зайняло б набагато менше часу для усунення.