ความล้มเหลวของ Facebook แสดงให้เห็นว่าเหตุใดเราจึงไม่ควรพึ่งพาทุกสิ่ง

click fraud protection

ประเด็นที่สำคัญ

  • ปัญหาทางเทคนิคของ Facebook นั้นโชคร้าย แต่ปัญหาน่าจะได้รับการแก้ไขเร็วกว่ามากหากไม่ได้อาศัยระบบที่เชื่อมต่อถึงกันมากมาย
  • ไม่มีวิธีป้องกันความล้มเหลวของระบบอย่างสมบูรณ์ แต่มีวิธีที่จะทำให้มีโอกาสน้อยลง
  • การมีแผนสำรองเมื่อระบบล้มเหลว (ไม่ใช่ถ้า เมื่อใด) สามารถสร้างความแตกต่างระหว่าง 'น่ารำคาญ' และ 'ภัยพิบัติ'
ไอคอนไม่ชอบสีขาวบนแป้นแป้นพิมพ์สีดำ

fongfong2 / Getty Images

การล่มสลายของ Facebook ครั้งล่าสุดแสดงให้เห็นว่าระบบที่เชื่อมต่อถึงกันจะล้มเหลวได้อย่างไร และเหตุใดเราจึงไม่ควรใช้ระบบเหล่านี้ในทุกสิ่ง

เสีย Facebook, WhatsApp และ Instagram ไปหลายชั่วโมง ในวันจันทร์ ไม่สะดวก สร้างความเสียหายให้กับธุรกิจและในบางกรณี เกือบหายนะ. อ้างอิงจากเฟซบุ๊ก ทั้งหมดเกิดจากการเปลี่ยนแปลงการกำหนดค่า ไปยังเราเตอร์ประสานงานเครือข่าย

เป็นคำอธิบายที่สมเหตุสมผล แต่ความจริงที่ว่าข้อผิดพลาดเพียงอย่างเดียวนั้นไม่เพียงแต่จะทำให้ Facebook เท่านั้น แต่ระบบอื่น ๆ ที่ Facebook เป็นเจ้าของต้องหยุดชะงักนั้นเป็นเรื่องที่น่าตกใจเล็กน้อย

การเปลี่ยนแปลงการกำหนดค่าเราเตอร์ผิดครั้งเดียวทำให้หลายบริการและแม้แต่ชุดหูฟัง VR หยุดทำงานโดยสิ้นเชิง ยิ่งไปกว่านั้น การยอมรับของ Facebook เองยังส่งผลต่อเนื่องต่อวิธีที่ศูนย์ข้อมูลของบริษัทสื่อสารกัน ทำให้บริการทั้งหมดของพวกเขาหยุดชะงักลง

"การพึ่งพาระบบที่เชื่อมต่อถึงกันทำให้เกิดความเสี่ยงโดยธรรมชาติของระบบหรือแม้กระทั่งความล้มเหลวของบริการ" .กล่าว ฟรานเชสโก้ อัลโตมาเร่วิศวกรฝ่ายขายด้านเทคนิคอาวุโสของ GlobalDots ในการสัมภาษณ์ทางอีเมลกับ Lifewire

"เพื่อรับมือกับความเสี่ยงที่น่ากลัวนี้ บริษัทต่างๆ ใช้หลักการของ SRE (System Reliability Engineering) ด้วยเช่นกัน เป็นเครื่องมืออื่น ๆ ซึ่งทั้งหมดจัดการกับระดับความซ้ำซ้อนที่แตกต่างกันในแต่ละชั้นของระบบ โครงสร้างพื้นฐาน”

Facebook ที่แสดงบนสมาร์ทโฟน นั่งถัดจากคอมพิวเตอร์แล็ปท็อปบนโต๊ะกระจก

ทิโมธี เฮลส์ เบนเน็ตต์ / Unsplash

สิ่งที่ผิดพลาดได้

เป็นที่น่าสังเกตว่าเมื่อระบบดังกล่าวล้มเหลว มักจะต้องใช้พายุที่สมบูรณ์แบบของสิ่งผิดปกติ มันไม่เหมือนกับบ้านไพ่ที่รอการร่วงหล่น และเป็นเหมือนช่องระบายความร้อนบนสถานีอวกาศที่มีขนาดเท่ากับดวงจันทร์ดวงเล็กๆ

บริษัทส่วนใหญ่พยายามดำเนินการเพื่อให้แน่ใจว่าสิ่งเดียวที่อาจทำให้ทุกอย่างวุ่นวายไม่เคยเกิดขึ้น แต่ไม่ว่าอะไรจะเกิดขึ้นก็ตาม

“ความล้มเหลวที่ไม่คาดคิดเป็นส่วนหนึ่งของธุรกิจ และอาจเกิดขึ้นจากความประมาทของพนักงาน ความผิดพลาดในเครือข่ายของผู้ให้บริการอินเทอร์เน็ต หรือแม้แต่บริการพื้นที่เก็บข้อมูลบนคลาวด์ที่กำลังประสบปัญหา” กล่าว แซลลี่ สตีเวนส์ผู้ร่วมก่อตั้ง FastPeopleSearch ในการสัมภาษณ์ทางอีเมล

"...ตราบใดที่มีขั้นตอนที่จำเป็นในการปกป้องระบบ เช่น การสำรองข้อมูล เราเตอร์ในสถานที่ และการเข้าถึงระดับชั้น ความล้มเหลวเหล่านี้ไม่น่าเป็นไปได้ทีเดียว" แม้ว่าจะมีกองทัพที่ล้มเหลว แต่ก็ยังเป็นไปได้ที่เข็มหมุดจะ ล้มเหลว.

หากระบบที่ควบคุมสิ่งต่างๆ เช่น รูปแบบหลักของการสัมผัส เครื่องใช้ ประตู ฯลฯ ล้มเหลว ผลลัพธ์ก็อาจมีนัยสำคัญ จากความไม่สะดวกเล็กน้อยไปจนถึงหายนะทั้งหมด ขึ้นอยู่กับจำนวนบุคคลและบริษัทที่พึ่งพามันทั้งหมด

กลุ่มวิศวกรประชุมรอบโต๊ะในสำนักงาน

รูปภาพ Hinterhaus Productions / Getty

"นอกจากนี้ยังมีความเสี่ยงที่แฮ็กเกอร์จะเข้าสู่ระบบจากอุปกรณ์ที่มีการป้องกันน้อยที่สุด เช่น ตู้เย็นและเครื่องปิ้งขนมปังในเตาอบ” สตีเวนส์กล่าว “ซึ่งอาจนำไปสู่การขโมยข้อมูลและ แรนซัมแวร์"

เราจะเตรียมตัวได้อย่างไร

ไม่มีวิธีใดที่จะรับประกันได้ว่าระบบจะไม่มีวันล้มเหลว แต่มีขั้นตอนที่สามารถทำได้เพื่อทำให้ความล้มเหลวมีโอกาสน้อยลงหรือเพื่อจัดการกับความล้มเหลวอย่างราบรื่นยิ่งขึ้น การผสมผสานระหว่างสองแนวทางที่แต่งงานกับระบบป้องกันความผิดพลาดและมาตรการรับมือด้วยแผนฉุกเฉินและระบบสำรองจะเหมาะสมที่สุด

“เพื่อขจัดอันตรายเหล่านี้ที่เกิดจากผลิตภัณฑ์และบริการของบุคคลที่สามที่ได้รับการจัดการอย่างมีประสิทธิภาพ บทบาทและหน้าที่ เกี่ยวกับการบริหารความเสี่ยงของบุคคลที่สามจะต้องมีการระบุไว้อย่างเคร่งครัด” Daniela Sawyer ผู้ก่อตั้งและประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีกล่าว ของ ค้นหาผู้คนอย่างรวดเร็วในการสัมภาษณ์ทางอีเมล "หากต้องการเติบโตในสภาพแวดล้อมใหม่เหล่านี้ ผู้จัดการความเสี่ยงต้องเข้าใจส่วนสำคัญของระบบนิเวศที่ซับซ้อนเช่นนี้"

สิ่งที่เกิดขึ้นกับ Facebook, WhatsApp และ Instagram นั้นโชคร้าย แต่ก็หวังว่าจะเป็นที่จับตามองเช่นกัน ผู้ที่อาศัยระบบที่เชื่อมต่อถึงกันต้องเข้าใจว่าสิ่งที่ถูกต้องที่ผิดพลาดสามารถทำลายทุกสิ่งได้ และต้องมีการกำหนดมาตรการ (หรือกลั่นกรองและกลั่นกรอง) เพื่อทำให้การหยุดชะงักดังกล่าวมีโอกาสน้อยลงและมีผลกระทบน้อยลง

ในกรณีของ Facebook ปัญหาไม่ใช่ปัญหาของเราเตอร์ แต่มีระบบนิเวศเกือบทั้งหมดที่เชื่อมต่อกับทุกสิ่งทุกอย่าง ดังนั้นเมื่อ Facebook (บริการ) ล่ม Facebook (บริษัท) ต้องใช้เวลาและพลังงานมากขึ้นในการจัดระเบียบและแก้ไขปัญหา หากไม่ได้ใช้ระบบที่เชื่อมต่อถึงกันที่หยั่งรากลึกหรือมีแผนสำรองเพื่อจัดการกับไฟดับเช่นนั้น ก็น่าจะใช้เวลาน้อยกว่ามากในการแก้ไข