Eșecul Facebook arată de ce nu ar trebui să ne bazăm pe el pentru orice

December 02, 2021
ÎnȘtiri Social Media

Recomandări cheie

Problemele tehnice ale Facebook au fost nefericite, dar problema ar fi fost probabil rezolvată mult mai repede dacă nu s-ar fi bazat pe atât de multe sisteme interconectate.
Nu există nicio modalitate de a preveni complet defecțiunile sistemului, dar există modalități de a le reduce probabilitatea.
A avea planuri de rezervă pentru când (nu dacă, când) un sistem eșuează poate face diferența între „enervant” și „catastrofal”.

O pictogramă albă degetul mare în jos pe o tastă neagră de la tastatură. — fongfong2 / Getty Images

Recentul dezastru Facebook demonstrează cum sistemele interconectate sunt obligate să eșueze și de ce nu ar trebui să le folosim pentru orice.

Pierderea Facebook, WhatsApp și Instagram timp de câteva ore pe luni a fost incomod, dăunătoare afacerilor, iar în unele cazuri, aproape catastrofal. Potrivit Facebook, totul s-a datorat modificărilor de configurare către routerele sale de coordonare a rețelei.

Este o explicație rezonabilă, dar faptul că o singură eroare de genul acesta ar putea opri nu doar Facebook, ci și alte sisteme deținute de Facebook, este puțin alarmant.

O modificare greșită a configurației routerului a făcut ca mai multe servicii și chiar căști VR să nu mai funcționeze complet. În plus, din propria recunoaștere a Facebook, a avut și un efect în cascadă asupra modului în care centrele de date ale companiei comunică, oprindu-și toate serviciile.

„Încredințarea pe sistemele interconectate implică un risc inerent de defecțiune a sistemului sau chiar a defecțiunii serviciului”, a spus Francesco Altomare, inginer tehnic senior de vânzări la GlobalDots, într-un interviu prin e-mail cu Lifewire,

„Pentru a contracara acest risc descurajator, companiile folosesc principiul SRE (System Reliability Engineering), de asemenea ca și alte instrumente, care toate se ocupă de diferite niveluri de redundanță încorporate în fiecare strat al sistemului. infrastructură."

Facebook afișat pe un smartphone, stând lângă un laptop pe o masă de sticlă. — Timothy Hales Bennett / Unsplash

Ce poate merge rau

Este demn de remarcat faptul că, atunci când un astfel de sistem eșuează, de obicei necesită o furtună perfectă de lucruri care merg prost. Este mai puțin ca un castel de cărți care așteaptă să cadă și mai mult ca un port de evacuare termic expus pe o stație spațială de dimensiunea unei luni mici.

Majoritatea companiilor iau măsuri pentru a încerca să se asigure că singurul lucru care ar putea arunca totul în haos nu se întâmplă niciodată – dar, indiferent, se poate întâmpla.

„Eșecurile neașteptate fac parte din afacere și ar putea apărea ca urmare a neglijenței lucrătorilor, a defecțiunilor în rețeaua furnizorului de servicii de internet sau chiar a problemelor serviciilor de stocare în cloud”, a spus Sally Stevens, co-fondatorul FastPeopleSearch, într-un interviu prin e-mail.

„... Atâta timp cât pașii necesari pentru a proteja sistemul — cum ar fi copii de rezervă, router la fața locului și acces la niveluri — sunt introduși loc, aceste eșecuri sunt destul de puțin probabile.” Deși, chiar și cu o armată de safe-safe, este totuși posibil ca piciorul principal să eșuează.

Dacă sistemul care controlează lucruri precum formele primare de contact, electrocasnice, uși etc., eșuează, rezultatele pot fi semnificative. De la neplăceri ușoare până la catastrofale totale, în funcție de cât de mult se bazează persoanele și companiile pe toate acestea.

Un grup de ingineri se întâlnesc în jurul unei mese într-un birou. — Hinterhaus Productions / Getty Images

„Există și riscul ca hackerii să intre în sistem de pe oricare dintre dispozitivele cel mai puțin protejate, precum frigiderele și prăjitoarele pentru cuptor”, a adăugat Stevens, „care ar putea duce la furtul de date și ransomware”.

Cum ne putem pregăti

Nu există nicio modalitate de a garanta că un sistem nu va eșua niciodată, dar există pași care pot fi luați fie pentru a reduce probabilitatea eșecului, fie pentru a o aborda mai ușor. O combinație a celor două abordări care îmbină sistemele de siguranță și contramăsuri cu planuri de urgență și sisteme de rezervă ar fi ideală.

„Pentru eliminarea acestor pericole create de produse și servicii terțe care sunt gestionate eficient, roluri și îndatoriri în ceea ce privește managementul riscului de la terți trebuie subliniat cu strictețe”, a declarat Daniela Sawyer, fondator și director de tehnologie. de GăsițiPeopleFast, într-un interviu prin e-mail, „Pentru a înflori în aceste noi împrejurimi, managerii de risc trebuie să înțeleagă părțile esențiale ale unui ecosistem atât de sofisticat”.

Ceea ce s-a întâmplat cu Facebook, WhatsApp și Instagram a fost regretabil, dar și sperăm că ne-a deschis ochii. Oamenii care se bazează pe sisteme interconectate trebuie să înțeleagă că lucrul corect care merge prost poate perturba totul. Și trebuie puse în aplicare (sau analizate și rafinate) măsuri pentru a face astfel de perturbări mai puțin probabile și mai puțin impactante.

În cazul Facebook, problema lui nu au fost problemele routerului, ci mai degrabă faptul că are aproape întregul său ecosistem conectat la orice altceva. Astfel, cu Facebook (serviciul) oprit, Facebook (compania) a trebuit să petreacă mult mai mult timp și energie pur și simplu organizând și abordând problema. Dacă fie nu a folosit un sistem atât de adânc înrădăcinat, interconectat, fie ar fi avut planuri de rezervă pentru a face față unei astfel de întreruperi, probabil că ar fi durat mult mai puțin timp pentru a remedia.