Facebook'un Başarısızlığı Neden Her Şey İçin Ona Güvenmememiz Gerektiğini Gösteriyor

click fraud protection

Önemli Çıkarımlar

  • Facebook'un teknik sorunları talihsizdi, ancak bu kadar çok birbirine bağlı sisteme dayanmasaydı, sorun muhtemelen çok daha hızlı çözülebilirdi.
  • Sistem arızalarını tamamen önlemenin bir yolu yoktur, ancak onları daha az olası hale getirmenin yolları vardır.
  • Bir sistemin ne zaman (ne zaman, ne zaman değil) arızalanacağına ilişkin yedekleme planlarına sahip olmak, 'sinir bozucu' ve 'felaket' arasındaki farkı yaratabilir.
Siyah klavye tuşunda beyaz bir başparmak aşağı simgesi.

fongfong2 / Getty Images

Son Facebook fiyaskosu, birbirine bağlı sistemlerin nasıl başarısız olmaya mahkum olduğunu ve neden onları her şey için kullanmamamız gerektiğini gösteriyor.

Facebook, WhatsApp ve Instagram'ı birkaç saat kaybetmek Pazartesi gününde uygunsuzdu, işletmelere zarar verenve bazı durumlarda, neredeyse felaket. Facebook'a göre, hepsi yapılandırma değişikliklerinden kaynaklanıyordu ağ koordinasyon yönlendiricilerine.

Bu makul bir açıklama, ancak bunun gibi tek bir hatanın sadece Facebook'u değil, Facebook'un sahip olduğu diğer sistemleri de durma noktasına getirebileceği gerçeği biraz endişe verici.

Yanlış bir yönlendirici yapılandırma değişikliği, birden çok hizmetin ve hatta VR kulaklıkların tamamen çalışmayı durdurmasına neden oldu. Bunun da ötesinde, Facebook'un kendi kabulüyle, şirketin veri merkezlerinin nasıl iletişim kurduğu üzerinde basamaklı bir etkisi oldu ve tüm hizmetlerini durdurdu.

"Birbirine bağlı sistemlere güvenmek, beraberinde doğal bir sistem ve hatta hizmet hatası riski taşıyor" dedi. Francesco Altomare, GlobalDots'ta kıdemli teknik satış mühendisi, Lifewire ile bir e-posta röportajında,

"Bu göz korkutucu riske karşı koymak için şirketler, SRE (Sistem Güvenilirliği Mühendisliği) ilkesini de kullanıyor. hepsi bir sistemin her katmanında yerleşik olarak değişen düzeylerde artıklık ile ilgilenen diğer araçlar gibi altyapı."

Bir akıllı telefonda görüntülenen Facebook, bir cam üst masada bir dizüstü bilgisayarın yanında oturuyor.

Timothy Hales Bennett / Unsplash

Ne yanlış gidebilir

Böyle bir sistem başarısız olduğunda, genellikle ters giden bir şeyler fırtınası gerektirdiğini belirtmekte fayda var. Düşmeyi bekleyen bir kart evi gibi değil, daha çok küçük bir ay büyüklüğünde bir uzay istasyonundaki açıkta kalan bir termal egzoz portu gibi.

Çoğu şirket, her şeyi kaosa sürükleyebilecek tek şeyin asla olmamasını sağlamak için adımlar atar - ama ne olursa olsun, olabilir.

"Beklenmeyen arızalar işin bir parçasıdır ve çalışanların ihmali, internet servis sağlayıcısının ağındaki arızalar ve hatta sorun yaşayan bulut depolama servislerinin bir sonucu olarak ortaya çıkabilir" dedi. Sally Stevens, bir e-posta röportajında ​​FastPeopleSearch'ün kurucu ortağı.

"...Sistemi korumak için gerekli adımlar (yedeklemeler, yerinde yönlendirici ve katmanlı erişim gibi) girildiği sürece bir yerde, bu başarısızlıklar pek olası değil." Arıza güvenlikli bir orduyla bile olsa, linç piminin hala hata.

Birincil temas biçimleri, aletler, kapılar vb. gibi şeyleri kontrol eden sistem başarısız olursa, sonuçlar önemli olabilir. Bireylerin ve şirketlerin buna ne kadar güvendiğine bağlı olarak, hafif rahatsızlıktan tam bir felakete kadar.

Bir ofiste bir masanın etrafında buluşan bir grup mühendis.

Hinterhaus Productions / Getty Images

"Ayrıca, en az korunan cihazlardan herhangi birinden sisteme bilgisayar korsanlarının girme riski de var, örneğin buzdolapları ve fırın ekmek kızartma makineleri gibi," diye ekledi Stevens, "bu da veri hırsızlığına ve fidye yazılımı."

Nasıl Hazırlayabiliriz?

Bir sistemin asla başarısız olmayacağını garanti etmenin bir yolu yoktur, ancak başarısızlığı daha az olası hale getirmek veya arızayı daha sorunsuz ele almak için atılabilecek adımlar vardır. Arıza güvenliklerini ve karşı önlemleri acil durum planları ve yedekleme sistemleriyle birleştiren iki yaklaşımın bir kombinasyonu ideal olacaktır.

"Etkin bir şekilde ele alınan üçüncü taraf ürün ve hizmetlerin yarattığı bu tehlikeleri ortadan kaldırmak için roller ve görevler Kurucu ve baş teknoloji sorumlusu Daniela Sawyer, "Üçüncü Taraf Risk Yönetimi ile ilgili olarak kesinlikle ana hatları çizilmelidir" dedi. ile ilgili İnsanları BulHızlı, bir e-posta röportajında, "Bu yeni çevrede gelişmek için, risk yöneticileri böyle karmaşık bir ekosistemin temel kısımlarını kavramalıdır."

Facebook, WhatsApp ve Instagram'da olanlar talihsizdi ama aynı zamanda umut vericiydi. Birbirine bağlı sistemlere güvenen insanlar, doğru şeyin yanlış gitmesinin her şeyi bozabileceğini anlamalıdır. Ve bu tür aksaklıkları daha az olası ve daha az etkili kılmak için önlemler alınmalı (veya incelenmeli ve iyileştirilmelidir).

Facebook'un durumunda, sorunu yönlendirici sorunları değil, neredeyse tüm ekosisteminin diğer her şeye bağlı olmasıydı. Bu nedenle, Facebook (hizmet) kapalıyken, Facebook (şirket) sorunu basitçe organize etmek ve ele almak için çok daha fazla zaman ve enerji harcamak zorunda kaldı. Ya bu kadar köklü, birbirine bağlı bir sistem kullanmasaydı ya da böyle bir kesintiyle başa çıkmak için yedekleme planları olsaydı, düzeltmesi muhtemelen çok daha az zaman alacaktı.