Facebookの失敗は、私たちがすべてをそれに頼るべきではない理由を示しています

click fraud protection

重要なポイント

  • Facebookの技術的な問題は残念なことでしたが、相互接続された多くのシステムに依存していなければ、問題ははるかに早く解決された可能性があります。
  • システム障害を完全に防ぐ方法はありませんが、発生する可能性を低くする方法はあります。
  • システムに障害が発生したとき(そうでない場合)のバックアップ計画を立てることで、「煩わしい」と「壊滅的な」の違いが生じる可能性があります。
黒のキーボードキーにある白い親指を下に向けたアイコン。

fongfong2 /ゲッティイメージズ

最近のFacebookの大失敗は、相互接続されたシステムがどのように失敗するのか、そしてなぜそれらをすべてに使用すべきではないのかを示しています。

Facebook、WhatsApp、Instagramを数時間失う 月曜日に 不便でした、 企業に損害を与える、場合によっては、 ほとんど壊滅的. Facebookによると、 それはすべて構成の変更によるものでした そのネットワーク調整ルーターに。

それは合理的な説明ですが、そのような単一のエラーがFacebookだけでなく、他のFacebook所有のシステムを停止させる可能性があるという事実は少し憂慮すべきです。

1つの間違ったルーター構成の変更により、複数のサービス、さらにはVRヘッドセットが完全に機能しなくなりました。 その上、Facebook自身の承認により、Facebookは会社のデータセンターの通信方法にも連鎖的な影響を及ぼし、すべてのサービスを停止させました。

「相互接続されたシステムへの依存は、システムまたはサービス障害の固有のリスクを伴います」と述べています。 フランチェスコ・アルトマーレ、GlobalDotsのシニアテクニカルセールスエンジニア、Lifewireとの電子メールインタビューで、

「この困難なリスクに対抗するために、企業はSRE(システム信頼性エンジニアリング)の原則も利用しています。 他のツールと同様に、システムのすべてのレイヤーに組み込まれているさまざまなレベルの冗長性をすべて処理します。 インフラストラクチャー。"

Facebookはスマートフォンに表示され、ガラスのトップテーブルのラップトップコンピューターの隣に座っています。

ティモシー・ヘイルズ・ベネット/アンスプラッシュ

何がうまくいかない

そのようなシステムに障害が発生した場合、通常、問題が発生するという最悪の状況が必要になることに注意してください。 それは、落下を待っているトランプの家のようなものではなく、小さな月ほどの大きさの宇宙ステーションの露出した熱排気ポートのようなものです。

ほとんどの企業は、すべてを混乱に陥れる可能性のある1つのことが決して起こらないようにするための措置を講じていますが、それにもかかわらず、それは起こり得るのです。

「予期しない障害はビジネスの一部であり、労働者の過失、インターネットサービスプロバイダーのネットワークの障害、さらには問題が発生しているクラウドストレージサービスの結果として発生する可能性があります」と述べています。 サリースティーブンス、FastPeopleSearchの共同創設者、電子メールインタビューで。

「...バックアップ、オンサイトルーター、階層型アクセスなど、システムを保護するために必要な手順が実行されている限り フェイルセーフの軍隊があっても、リンチピンが 不合格。

主要な連絡先、電化製品、ドアなどを制御するシステムに障害が発生した場合、結果は重大なものになる可能性があります。 個人や企業がどれだけすべてに依存しているかに応じて、軽度の不便から完全な壊滅的なものまで。

オフィスのテーブルの周りで集まるエンジニアのグループ。

ヒンターハウスプロダクションズ/ゲッティイメージズ

「ハッカーが最も保護されていないデバイスからシステムに侵入するリスクもあります。 冷蔵庫やオーブントースターなど」とスティーブンス氏は付け加えました。 ランサムウェア。」

準備方法

システムに障害が発生しないことを保証する方法はありませんが、障害の可能性を低くするか、障害にスムーズに対処するための手順があります。 フェイルセーフと対策を緊急時対応計画とバックアップシステムと組み合わせる2つのアプローチの組み合わせが理想的です。

「効果的に処理されるサードパーティの製品およびサービス、役割、および義務によって生じるこれらの危険を排除するため サードパーティのリスク管理に関しては、厳密に概説する必要があります」と、創設者兼最高技術責任者のダニエラソーヤーは述べています。 の FindPeopleFast、電子メールのインタビューで、「これらの新しい環境で繁栄するには、リスク管理者はそのような洗練されたエコシステムの本質的な部分を把握する必要があります。」

Facebook、WhatsApp、Instagramで起こったことは残念なことでしたが、目を見張るものもありました。 相互接続されたシステムに依存している人々は、正しいことがうまくいかないとすべてが混乱する可能性があることを理解する必要があります。 そして、そのような混乱の可能性と影響を少なくするための対策を講じる(または精査して洗練する)必要があります。

Facebookの場合、問題はルーターのトラブルではなく、エコシステムのほぼ全体が他のすべてに接続されていることでした。 したがって、Facebook(サービス)がダウンすると、Facebook(会社)は問題を整理して対処するだけで、はるかに多くの時間とエネルギーを費やす必要がありました。 そのような根深い相互接続されたシステムを使用しなかった場合、またはそのような停止に対処するためのバックアップ計画が実施されていた場合、修正にかかる時間ははるかに短いでしょう。