Das Scheitern von Facebook zeigt, warum wir uns nicht für alles darauf verlassen sollten

click fraud protection

Die zentralen Thesen

  • Die technischen Probleme von Facebook waren bedauerlich, aber das Problem wäre wahrscheinlich viel schneller gelöst worden, wenn es nicht auf so viele miteinander verbundene Systeme angewiesen wäre.
  • Es gibt keine Möglichkeit, Systemausfälle vollständig zu verhindern, aber es gibt Möglichkeiten, sie weniger wahrscheinlich zu machen.
  • Backup-Pläne dafür zu haben, wann (nicht ob, wann) ein System ausfällt, kann den Unterschied zwischen „ärgerlich“ und „katastrophal“ ausmachen.
Ein weißes Daumen-nach-unten-Symbol auf einer schwarzen Tastaturtaste.

fongfong2 / Getty Images

Das jüngste Facebook-Debakel zeigt, wie oft vernetzte Systeme scheitern und warum wir sie nicht für alles nutzen sollten.

Mehrere Stunden Facebook, WhatsApp und Instagram verlieren am Montag war unbequem, schädlich für Unternehmen, und in einigen Fällen fast katastrophal. Laut Facebook, es war alles aufgrund von Konfigurationsänderungen an seine netzwerkkoordinierenden Router.

Es ist eine vernünftige Erklärung, aber die Tatsache, dass ein einzelner Fehler wie dieser nicht nur Facebook, sondern auch andere Facebook-eigene Systeme zum Stillstand bringen könnte, ist ein bisschen alarmierend.

Eine falsche Änderung der Router-Konfiguration führte dazu, dass mehrere Dienste und sogar VR-Headsets vollständig nicht mehr funktionierten. Darüber hinaus hatte es nach eigenen Angaben von Facebook auch einen kaskadierenden Effekt auf die Kommunikation der Rechenzentren des Unternehmens und brachte alle ihre Dienste zum Erliegen.

„Die Abhängigkeit von vernetzten Systemen birgt ein inhärentes Risiko von System- oder sogar Dienstausfällen“, sagte Francesco Altomare, Senior Technical Sales Engineer bei GlobalDots, in einem E-Mail-Interview mit Lifewire,

„Um diesem gewaltigen Risiko zu begegnen, nutzen Unternehmen auch das Prinzip des SRE (System Reliability Engineering) wie andere Tools, die alle mit unterschiedlichen Redundanzstufen umgehen, die in jede Schicht eines Systems integriert sind Infrastruktur."

Facebook wird auf einem Smartphone angezeigt, das neben einem Laptop auf einem Glastisch sitzt.

Timothy Hales Bennett / Unsplash

Was kann schon schief gehen

Es ist erwähnenswert, dass wenn ein solches System ausfällt, es normalerweise einen perfekten Sturm von Dingen erfordert, die schief gehen. Es ist weniger wie ein Kartenhaus, das darauf wartet, zu fallen, sondern eher wie eine freiliegende thermische Abluftöffnung auf einer Raumstation von der Größe eines kleinen Mondes.

Die meisten Unternehmen unternehmen Schritte, um sicherzustellen, dass die eine Sache, die alles ins Chaos stürzen könnte, nie passiert – aber trotzdem kann es passieren.

„Unerwartete Ausfälle gehören zum Geschäft und können auf Fahrlässigkeit der Mitarbeiter, Fehler im Netzwerk des Internetdienstanbieters oder sogar Probleme bei Cloud-Speicherdiensten zurückzuführen sein“, sagte Sally Stevens, Mitbegründer von FastPeopleSearch, in einem E-Mail-Interview.

„...Solange die notwendigen Schritte zum Schutz des Systems – wie Backups, Vor-Ort-Router und abgestufter Zugriff – implementiert sind Diese Ausfälle sind ziemlich unwahrscheinlich." Obwohl es selbst mit einer Armee von Ausfallsicherungen für den Dreh- und Angelpunkt immer noch möglich ist, Scheitern.

Wenn das System, das Dinge wie primäre Kontaktformen, Geräte, Türen usw. steuert, versagt, können die Ergebnisse signifikant sein. Von leichten Unannehmlichkeiten bis hin zu katastrophalen Folgen, je nachdem, wie sehr sich Einzelpersonen und Unternehmen darauf verlassen.

Eine Gruppe von Ingenieuren trifft sich in einem Büro um einen Tisch.

Hinterhaus Productions / Getty Images

„Es besteht auch die Gefahr, dass Hacker von einem der am wenigsten geschützten Geräte in das System eindringen. wie Kühlschränke und Backofen-Toaster", fügte Stevens hinzu, "was zu Datendiebstahl führen könnte und Ransomware."

Wie können wir uns vorbereiten

Es gibt keine Möglichkeit, zu garantieren, dass ein System niemals ausfällt, aber es gibt Schritte, die entweder die Wahrscheinlichkeit eines Ausfalls verringern oder den Ausfall reibungsloser beheben. Ideal wäre eine Kombination der beiden Ansätze, die Ausfallsicherungen und Gegenmaßnahmen mit Notfallplänen und Backup-Systemen verbindet.

"Um diese Gefahren zu beseitigen, die durch Produkte und Dienstleistungen von Drittanbietern entstehen, die effektiv gehandhabt werden, Rollen und Pflichten in Bezug auf das Third-Party Risk Management müssen streng umrissen werden", sagte Daniela Sawyer, Gründerin und Chief Technology Officer von FindMenschenSchnell, in einem E-Mail-Interview: "Um in dieser neuen Umgebung zu gedeihen, müssen Risikomanager die wesentlichen Bestandteile eines so ausgeklügelten Ökosystems verstehen."

Was mit Facebook, WhatsApp und Instagram passiert ist, war bedauerlich, aber hoffentlich auch aufschlussreich. Menschen, die auf vernetzte Systeme angewiesen sind, müssen verstehen, dass das Richtige, wenn es schief geht, alles stören kann. Und es müssen Maßnahmen ergriffen (oder überprüft und verfeinert) werden, um solche Störungen weniger wahrscheinlich und weniger wirksam zu machen.

Im Fall von Facebook waren das Problem nicht die Router-Probleme, sondern die Verbindung fast seines gesamten Ökosystems mit allem anderen. Somit musste Facebook (das Unternehmen) mit dem Ausfall von Facebook (dem Dienst) viel mehr Zeit und Energie aufwenden, um das Problem einfach zu organisieren und anzugehen. Hätte es entweder kein so tief verwurzeltes, miteinander verbundenes System verwendet oder hätte es Backup-Pläne, um einen solchen Ausfall zu bewältigen, hätte die Behebung wahrscheinlich viel weniger Zeit in Anspruch genommen.