Facebookin epäonnistuminen osoittaa, miksi meidän ei pitäisi luottaa siihen kaikessa

click fraud protection

Avaimet takeawayt

  • Facebookin tekniset ongelmat olivat valitettavia, mutta ongelma olisi todennäköisesti ratkennut paljon nopeammin, jos se ei olisi tukeutunut niin moniin toisiinsa kytkettyihin järjestelmiin.
  • Järjestelmän vikoja ei voida estää kokonaan, mutta on olemassa keinoja vähentää niiden todennäköisyyttä.
  • Varasuunnitelmat sille, milloin (ei jos, milloin) järjestelmä epäonnistuu, voivat tehdä eron "ärsyttävän" ja "katastrofaalisen" välillä.
Valkoinen peukalo alas -kuvake mustalla näppäimistön näppäimellä.

fongfong2 / Getty Images

Äskettäinen Facebookin romahdus osoittaa, kuinka toisiinsa yhdistetyt järjestelmät epäonnistuvat ja miksi meidän ei pitäisi käyttää niitä kaikkeen.

Facebookin, WhatsAppin ja Instagramin menettäminen useiksi tunteiksi maanantaina oli epämukavaa, yrityksille haitallistaja joissain tapauksissa melkein katastrofaalinen. Facebookin mukaan kaikki johtui kokoonpanomuutoksista sen verkkoa koordinoiville reitittimille.

Se on järkevä selitys, mutta se tosiasia, että yksi tällainen virhe voisi pysäyttää Facebookin lisäksi myös muut Facebookin omistamat järjestelmät, on hieman hälyttävää.

Yksi väärä reitittimen asetusten muutos aiheutti sen, että useat palvelut ja jopa VR-kuulokkeet lakkasivat toimimasta kokonaan. Tämän lisäksi Facebookin oman myöntämän mukaan sillä oli myös peräkkäinen vaikutus yrityksen datakeskusten kommunikointiin, mikä pysäytti kaikki heidän palvelut.

"Riittaaminen toisiinsa yhdistettyihin järjestelmiin tuo mukanaan luontaisen riskin järjestelmä- tai jopa palveluvioista", sanoi Francesco Altomare, GlobalDotsin vanhempi tekninen myyntiinsinööri Lifewiren sähköpostihaastattelussa,

"Tämän pelottavan riskin torjumiseksi yritykset käyttävät myös SRE: n (System Reliability Engineering) periaatetta. kuten muutkin työkalut, jotka kaikki käsittelevät järjestelmän jokaiseen kerrokseen sisäänrakennetun redundanssitason vaihtelua infrastruktuuri."

Facebook näkyy älypuhelimessa kannettavan tietokoneen vieressä lasisella pöydällä.

Timothy Hales Bennett / Unsplash

Mikä voi mennä pieleen

On syytä huomata, että kun tällainen järjestelmä epäonnistuu, se vaatii yleensä täydellisen myrskyn, jossa asiat menevät pieleen. Se on vähemmän kuin korttitalo, joka odottaa putoamista, vaan enemmän kuin paljas lämpöpoistoportti pienen kuun kokoisella avaruusasemalla.

Useimmat yritykset ryhtyvät toimiin varmistaakseen, että se yksi asia, joka voi viedä kaiken kaaokseen, ei koskaan tapahdu – mutta joka tapauksessa, se voi tapahtua.

"Odottamattomat epäonnistumiset ovat osa liiketoimintaa ja voivat johtua työntekijän huolimattomuudesta, Internet-palveluntarjoajan verkon vioista tai jopa pilvitallennuspalveluista", sanoi Sally Stevens, FastPeopleSearchin perustaja, sähköpostihaastattelussa.

"...Niin kauan kuin tarvittavat toimenpiteet järjestelmän suojaamiseksi - kuten varmuuskopiot, paikan päällä oleva reititin ja porrastettu käyttö - on otettu käyttöön paikkaan, nämä viat ovat melko epätodennäköisiä." Vaikka vikaturvalaitteiden armeijallakin on mahdollista, että lynchpin epäonnistua.

Jos järjestelmä, joka ohjaa asioita, kuten ensisijaisia ​​kosketusmuotoja, laitteita, ovia jne., epäonnistuu, tulokset voivat olla merkittäviä. Lievistä haitoista täysin katastrofaalisiin, riippuen siitä, kuinka paljon yksilöt ja yritykset luottavat siihen kaikkeen.

Ryhmä insinöörejä tapaamassa pöydän ympärillä toimistossa.

Hinterhaus Productions / Getty Images

"On myös olemassa riski, että hakkerit pääsevät järjestelmään mistä tahansa vähiten suojatuista laitteista, kuten jääkaapit ja leivänpaahtimet", lisäsi Stevens, "jotka voivat johtaa tietovarkauksiin ja lunnasohjelma."

Kuinka voimme valmistautua

Ei ole mitään keinoa taata, että järjestelmä ei koskaan epäonnistu, mutta on olemassa toimenpiteitä, joilla voidaan joko vähentää epäonnistumisen todennäköisyyttä tai korjata vika sujuvammin. Kahden lähestymistavan yhdistelmä, joka yhdistää vikasuojat ja vastatoimenpiteet valmiussuunnitelmiin ja varajärjestelmiin, olisi ihanteellinen.

"Näiden tehokkaasti käsiteltyjen kolmansien osapuolien tuotteiden ja palvelujen aiheuttamien vaarojen poistamiseksi, roolit ja tehtävät Kolmannen osapuolen riskinhallinta on linjattava tarkasti", sanoi Daniela Sawyer, perustaja ja teknologiajohtaja. / Etsi ihmisiä nopeasti, sähköpostihaastattelussa: "Kukoistaakseen näissä uudessa ympäristössä, riskinhaltijoiden on ymmärrettävä tällaisen hienostuneen ekosysteemin olennaiset osat."

Se, mitä Facebookille, WhatsAppille ja Instagramille tapahtui, oli valitettavaa, mutta toivottavasti myös silmiä avaavaa. Ihmisten, jotka luottavat toisiinsa yhdistettyihin järjestelmiin, on ymmärrettävä, että oikea asia, joka menee pieleen, voi häiritä kaiken. Ja toimenpiteitä on otettava käyttöön (tai tarkasteltava ja jalostettava), jotta tällaiset häiriöt eivät ole todennäköisempiä ja niillä olisi vähemmän vaikutuksia.

Facebookin tapauksessa sen ongelma ei ollut reitittimen ongelmat, vaan melkein koko sen ekosysteemin yhdistäminen kaikkeen muuhun. Näin ollen Facebookin (palvelun) ollessa alhaalla Facebookin (yrityksen) täytyi käyttää paljon enemmän aikaa ja energiaa yksinkertaisesti asian järjestämiseen ja käsittelemiseen. Jos se joko ei käyttäisi niin syvään juurtunutta, toisiinsa yhdistettyä järjestelmää tai jos sillä olisi varasuunnitelmat tällaisen katkon käsittelemiseksi, sen korjaaminen olisi todennäköisesti kestänyt paljon vähemmän aikaa.