Il fallimento di Facebook mostra perché non dovremmo fare affidamento su di esso per tutto

click fraud protection

Punti chiave

  • I problemi tecnici di Facebook sono stati sfortunati, ma il problema sarebbe stato probabilmente risolto molto più velocemente se non si fosse basato su così tanti sistemi interconnessi.
  • Non c'è modo di prevenire completamente gli errori di sistema, ma ci sono modi per renderli meno probabili.
  • Avere piani di backup per quando (non se, quando) un sistema si guasta può fare la differenza tra "fastidioso" e "catastrofico".
Un'icona bianca con il pollice in giù su un tasto nero della tastiera.

fongfong2 / Getty Images

La recente debacle di Facebook dimostra come i sistemi interconnessi siano destinati a fallire e perché non dovremmo usarli per tutto.

Perdere Facebook, WhatsApp e Instagram per diverse ore di lunedi era scomodo, dannoso per le imprese, e in alcuni casi, quasi catastrofico. Secondo Facebook, era tutto dovuto a modifiche di configurazione ai suoi router di coordinamento della rete.

È una spiegazione ragionevole, ma il fatto che un singolo errore del genere possa portare non solo Facebook ma anche altri sistemi di proprietà di Facebook a fermarsi è un po' allarmante.

Una modifica errata della configurazione del router ha causato l'interruzione completa del funzionamento di più servizi e persino dei visori VR. Inoltre, per stessa ammissione di Facebook, ha anche avuto un effetto a cascata sul modo in cui comunicano i data center dell'azienda, interrompendo tutti i loro servizi.

"La dipendenza da sistemi interconnessi comporta un rischio intrinseco di guasto del sistema o addirittura del servizio", ha affermato Francesco Altomare, tecnico vendite senior presso GlobalDots, in un'intervista via e-mail con Lifewire,

"Per contrastare questo arduo rischio, le aziende utilizzano anche il principio di SRE (System Reliability Engineering) come altri strumenti, che si occupano tutti di vari livelli di ridondanza incorporati in ogni livello di un sistema infrastruttura."

Facebook visualizzato su uno smartphone, seduto accanto a un computer portatile su un tavolo con ripiano in vetro.

Timothy Hales Bennett / Unsplash

Cosa può andare storto

Vale la pena notare che quando un sistema del genere fallisce, di solito richiede una tempesta perfetta di cose che vanno male. È meno simile a un castello di carte in attesa di cadere e più simile a una porta di scarico termica esposta su una stazione spaziale delle dimensioni di una piccola luna.

La maggior parte delle aziende adotta misure per cercare di garantire che l'unica cosa che potrebbe gettare tutto nel caos non accada mai, ma a prescindere, può accadere.

"I guasti imprevisti fanno parte del business e potrebbero derivare da negligenza dei lavoratori, guasti nella rete del provider di servizi Internet o persino problemi di servizi di cloud storage", ha affermato Sally Stevens, co-fondatore di FastPeopleSearch, in un'intervista via email.

"...Finché le misure necessarie per proteggere il sistema, come backup, router in loco e accesso a più livelli, vengono eseguite posto, questi fallimenti sono abbastanza improbabili." Sebbene anche con un esercito di dispositivi di sicurezza, è ancora possibile per il fulcro di fallire.

Se il sistema che controlla cose come forme primarie di contatto, elettrodomestici, porte, ecc., fallisce, i risultati possono essere significativi. Dal lieve inconveniente al catastrofico totale, a seconda di quanto gli individui e le aziende si affidano a tutto questo.

Un gruppo di ingegneri si riunisce attorno a un tavolo in un ufficio.

Hinterhaus Productions / Getty Images

"C'è anche il rischio che gli hacker entrino nel sistema da uno dei dispositivi meno protetti, come frigoriferi e tostapane", ha aggiunto Stevens, "che potrebbe portare al furto di dati e ransomware."

Come possiamo prepararci?

Non c'è modo di garantire che un sistema non fallirà mai, ma ci sono misure che possono essere prese per rendere meno probabile il guasto o per affrontarlo in modo più agevole. Una combinazione dei due approcci che unisce sistemi di sicurezza e contromisure con piani di emergenza e sistemi di backup sarebbe l'ideale.

"Per eliminare questi rischi creati da prodotti e servizi di terze parti che vengono gestiti in modo efficace, ruoli e doveri per quanto riguarda la gestione del rischio di terze parti deve essere rigorosamente delineato", ha affermato Daniela Sawyer, fondatrice e chief technology officer di Trova persone velocemente, in un'intervista via e-mail, "Per prosperare in questo nuovo ambiente, i gestori del rischio devono comprendere le parti essenziali di un ecosistema così sofisticato".

Quello che è successo con Facebook, WhatsApp e Instagram è stato sfortunato, ma si spera anche illuminante. Le persone che si affidano a sistemi interconnessi devono capire che la cosa giusta che va male può interrompere tutto. E le misure devono essere messe in atto (o esaminate e perfezionate) per rendere tali interruzioni meno probabili e meno impattanti.

Nel caso di Facebook, il suo problema non erano i problemi del router, ma piuttosto avere quasi tutto il suo ecosistema connesso a tutto il resto. Pertanto, con Facebook (il servizio) inattivo, Facebook (l'azienda) ha dovuto dedicare molto più tempo ed energie semplicemente all'organizzazione e alla risoluzione del problema. Se non utilizzasse un sistema così radicato e interconnesso o avesse piani di backup in atto per far fronte a un'interruzione del genere, probabilmente ci sarebbe voluto molto meno tempo per risolverlo.