Kegagalan Facebook Menunjukkan Mengapa Kita Tidak Harus Mengandalkannya untuk Semuanya

click fraud protection

Takeaways Kunci

  • Masalah teknis Facebook sangat disayangkan, tetapi masalahnya kemungkinan akan diselesaikan lebih cepat jika tidak bergantung pada begitu banyak sistem yang saling berhubungan.
  • Tidak ada cara untuk mencegah kegagalan sistem sepenuhnya, tetapi ada cara untuk membuatnya lebih kecil kemungkinannya.
  • Memiliki rencana cadangan kapan (bukan jika, kapan) sistem gagal dapat membuat perbedaan antara 'mengganggu' dan 'bencana'.
Ikon jempol ke bawah berwarna putih pada tombol keyboard hitam.

fongfong2 / Getty Images

Bencana Facebook baru-baru ini menunjukkan bagaimana sistem yang saling berhubungan pasti akan gagal dan mengapa kita tidak boleh menggunakannya untuk semuanya.

Kehilangan Facebook, WhatsApp, dan Instagram selama beberapa jam pada hari Senin tidak nyaman, merugikan bisnis, dan dalam beberapa kasus, hampir bencana. Menurut Facebook, itu semua karena perubahan konfigurasi ke router koordinator jaringannya.

Ini adalah penjelasan yang masuk akal, tetapi fakta bahwa satu kesalahan seperti itu tidak hanya dapat membuat Facebook tetapi sistem milik Facebook lainnya berhenti bekerja agak mengkhawatirkan.

Satu perubahan konfigurasi router yang salah menyebabkan beberapa layanan, dan bahkan headset VR, berhenti bekerja sepenuhnya. Selain itu, menurut pengakuan Facebook sendiri, itu juga memiliki efek berjenjang pada cara pusat data perusahaan berkomunikasi, membuat semua layanan mereka terhenti.

"Ketergantungan pada sistem yang saling berhubungan memang membawa risiko yang melekat pada sistem atau bahkan kegagalan layanan," kata Francesco Altomare, insinyur penjualan teknis senior di GlobalDots, dalam wawancara email dengan Lifewire,

Untuk mengatasi risiko yang menakutkan ini, perusahaan juga menggunakan prinsip SRE (System Reliability Engineering). sebagai alat lain, yang semuanya menangani berbagai tingkat redundansi yang dibangun ke dalam setiap lapisan sistem infrastruktur."

Facebook ditampilkan di smartphone, duduk di sebelah komputer laptop di atas meja kaca.

Timothy Hales Bennett / Unsplash

Apa yang Bisa Salah?

Perlu dicatat bahwa ketika sistem seperti itu gagal, biasanya membutuhkan badai yang sempurna dari hal-hal yang salah. Ini kurang seperti rumah kartu yang menunggu untuk jatuh dan lebih seperti lubang pembuangan termal yang terbuka di stasiun ruang angkasa seukuran bulan kecil.

Sebagian besar perusahaan mengambil langkah untuk mencoba dan memastikan bahwa satu hal yang dapat membuat segalanya kacau tidak pernah terjadi—tetapi terlepas dari itu, itu bisa terjadi.

"Kegagalan yang tidak terduga adalah bagian dari bisnis dan dapat muncul sebagai akibat dari kelalaian pekerja, kesalahan pada jaringan penyedia layanan internet, atau bahkan layanan penyimpanan cloud yang mengalami masalah," kata Sally Stevens, salah satu pendiri FastPeopleSearch, dalam sebuah wawancara email.

"...Selama langkah-langkah yang diperlukan untuk melindungi sistem—seperti pencadangan, router di tempat, dan akses berjenjang—dilakukan tempat, kegagalan ini sangat tidak mungkin." Meskipun dengan pasukan brankas gagal, masih mungkin bagi lynchpin untuk gagal.

Jika sistem yang mengontrol hal-hal seperti kontak utama, peralatan, pintu, dll., gagal, hasilnya bisa signifikan. Dari ketidaknyamanan ringan hingga bencana besar, tergantung pada seberapa banyak individu dan perusahaan bergantung pada semuanya.

Sekelompok insinyur bertemu di sekitar meja di kantor.

Hinterhaus Productions / Getty Images

"Ada juga risiko peretas masuk ke sistem dari perangkat yang paling tidak terlindungi, seperti lemari es dan pemanggang roti," tambah Stevens, "yang dapat menyebabkan pencurian data dan ransomware."

Bagaimana Kita Bisa Mempersiapkan

Tidak ada cara untuk menjamin bahwa suatu sistem tidak akan pernah gagal, tetapi ada beberapa langkah yang dapat diambil untuk memperkecil kemungkinan terjadinya kegagalan atau mengatasi kegagalan dengan lebih lancar. Kombinasi dari dua pendekatan yang menggabungkan fail-safes dan penanggulangan dengan rencana darurat dan sistem cadangan akan ideal.

"Untuk menghilangkan bahaya yang diciptakan oleh produk dan layanan pihak ketiga yang ditangani secara efektif, peran dan tugas mengenai Manajemen Risiko Pihak Ketiga harus digariskan secara ketat," kata Daniela Sawyer, pendiri dan chief technology officer dari Temukan OrangCepat, dalam sebuah wawancara email, "Untuk berkembang di lingkungan baru ini, manajer risiko harus memahami bagian penting dari ekosistem yang sedemikian canggih."

Apa yang terjadi dengan Facebook, WhatsApp, dan Instagram sangat disayangkan, tetapi juga semoga membuka mata. Orang-orang yang mengandalkan sistem yang saling berhubungan harus memahami bahwa hal yang benar yang salah dapat mengganggu segalanya. Dan langkah-langkah harus dilakukan (atau diteliti dan disempurnakan) untuk membuat gangguan tersebut lebih kecil kemungkinannya dan kurang berdampak.

Dalam kasus Facebook, masalahnya bukanlah masalah router, melainkan hampir seluruh ekosistemnya terhubung ke yang lainnya. Jadi, dengan turunnya Facebook (layanan), Facebook (perusahaan) harus menghabiskan lebih banyak waktu dan energi hanya untuk mengatur dan menangani masalah tersebut. Jika tidak menggunakan sistem yang mengakar dalam dan saling berhubungan atau memiliki rencana cadangan untuk menangani pemadaman seperti itu, kemungkinan akan membutuhkan waktu yang jauh lebih sedikit untuk memperbaikinya.