Facebook의 실패는 우리가 모든 것에 대해 그것에 의존해서는 안되는 이유를 보여줍니다

click fraud protection

주요 내용

  • 페이스북의 기술적인 문제는 안타까운 일이었지만, 그렇게 많은 상호 연결된 시스템에 의존하지 않았다면 문제가 훨씬 더 빨리 해결되었을 것입니다.
  • 시스템 오류를 완전히 방지할 수 있는 방법은 없지만 발생 가능성을 줄이는 방법은 있습니다.
  • 시스템이 실패할 때(경우가 아닌 경우)에 대한 백업 계획이 있으면 '성가신'과 '재앙적인' 차이를 만들 수 있습니다.
검은색 키보드 키에 흰색 엄지손가락을 아래로 아이콘.

fongfong2 / 게티 이미지

최근 페이스북의 참패는 상호 연결된 시스템이 어떻게 실패할 수밖에 없는지, 왜 우리가 모든 시스템에 이를 사용해서는 안 되는지를 보여줍니다.

몇 시간 동안 Facebook, WhatsApp 및 Instagram을 잃음 월요일에 불편했다, 기업에 피해, 그리고 어떤 경우에는, 거의 재앙에 가까운. 페이스북에 따르면, 모두 구성 변경 때문이었습니다. 그것의 네트워크 조정 라우터에.

일리 있는 설명이지만, 이와 같은 한 번의 오류로 인해 Facebook뿐 아니라 Facebook 소유의 다른 시스템도 중단될 수 있다는 사실은 다소 우려스럽습니다.

하나의 잘못된 라우터 구성 변경으로 인해 여러 서비스, 심지어 VR 헤드셋이 완전히 작동을 멈췄습니다. 게다가 페이스북이 자체적으로 인정한 바에 따르면 회사 데이터 센터가 통신하는 방식에 연쇄적인 영향을 주어 모든 서비스가 중단되었습니다.

"상호 연결된 시스템에 대한 의존은 시스템 또는 서비스 실패의 고유한 위험을 수반합니다"라고 말했습니다. 프란체스코 알토마레, GlobalDots의 수석 기술 영업 엔지니어가 Lifewire와의 이메일 인터뷰에서

"이러한 위험에 대처하기 위해 기업은 SRE(System Reliability Engineering) 원칙을 활용합니다. 시스템의 모든 계층에 구축된 다양한 수준의 중복성을 모두 처리하는 다른 도구로 하부 구조."

유리 상판에 노트북 컴퓨터 옆에 앉아 스마트폰에 표시되는 Facebook.

티모시 헤일즈 베넷 / 언스플래쉬

잘못될 수 있는 것

그러한 시스템이 실패할 때 일반적으로 문제가 발생하는 완벽한 폭풍우가 필요하다는 점은 주목할 가치가 있습니다. 그것은 떨어지기를 기다리는 카드의 집이라기보다 작은 달 크기의 우주 정거장에 있는 노출된 열 배출 포트와 비슷합니다.

대부분의 기업은 모든 것을 혼란에 빠뜨릴 수 있는 한 가지 일이 절대 일어나지 않도록 노력하고 보장하기 위한 조치를 취합니다. 그러나 어쨌든 일어날 수 있습니다.

"예기치 않은 오류는 비즈니스의 일부이며 작업자의 부주의, 인터넷 서비스 제공업체의 네트워크 오류 또는 문제를 겪고 있는 클라우드 스토리지 서비스의 결과로 발생할 수 있습니다."라고 말했습니다. 샐리 스티븐스, FastPeopleSearch의 공동 설립자, 이메일 인터뷰.

"...백업, 현장 라우터, 계층형 액세스 등 시스템을 보호하는 데 필요한 조치를 취하는 한 장소에서 이러한 실패는 거의 발생하지 않습니다." 비상 안전 장치의 군대가 있더라도 여전히 린치핀이 불합격.

주요 접촉 형태, 가전 제품, 문 등을 제어하는 ​​시스템이 실패하면 그 결과는 상당할 수 있습니다. 개인과 회사가 얼마나 의존하느냐에 따라 가벼운 불편함에서 전면적인 재앙까지.

사무실의 테이블 주위에서 회의를 하는 엔지니어 그룹.

Hinterhaus 프로덕션 / 게티 이미지

"또한 해커가 가장 덜 보호된 장치에서 시스템에 침입할 위험이 있습니다. 데이터 도용으로 이어질 수 있는 냉장고, 오븐 토스터와 같은 랜섬웨어."

준비 방법

시스템이 절대 실패하지 않을 것이라고 보장할 수 있는 방법은 없지만 실패 가능성을 줄이거나 보다 원활하게 실패를 해결하기 위해 취할 수 있는 단계는 있습니다. 비상 계획 및 백업 시스템과 함께 안전 장치 및 대책을 결합하는 두 가지 접근 방식의 조합이 이상적입니다.

"효과적으로 처리되는 타사 제품 및 서비스에 의해 발생하는 이러한 위험을 제거하기 위해 역할 및 의무 설립자이자 CTO인 Daniela Sawyer는 "제3자 위험 관리와 관련하여 엄격하게 요약되어야 합니다. NS FindPeopleFast, 이메일 인터뷰에서 "이러한 새로운 환경에서 번성하려면 위험 관리자가 이러한 정교한 에코시스템의 필수 부분을 파악해야 합니다."

페이스북, 왓츠앱, 인스타그램에 일어난 일은 불행한 일이었지만 희망적으로는 눈을 뜨게 하는 일이었습니다. 상호 연결된 시스템에 의존하는 사람들은 옳은 일이 잘못되면 모든 것을 혼란에 빠뜨릴 수 있음을 이해해야 합니다. 그리고 그러한 중단의 가능성과 영향력을 줄이기 위한 조치를 마련해야 합니다(또는 면밀히 검토하고 개선해야 함).

Facebook의 경우 문제는 라우터 문제가 아니라 거의 전체 생태계가 다른 모든 것과 연결되어 있다는 것입니다. 따라서 Facebook(서비스)이 중단되면서 Facebook(회사)은 단순히 문제를 구성하고 해결하는 데 훨씬 더 많은 시간과 에너지를 소비해야 했습니다. 뿌리가 깊고 상호 연결된 시스템을 사용하지 않았거나 그러한 중단을 처리하기 위한 백업 계획이 있었다면 수정하는 데 훨씬 더 적은 시간이 걸렸을 것입니다.