El fracaso de Facebook muestra por qué no deberíamos confiar en él para todo
Conclusiones clave
- Los problemas técnicos de Facebook fueron desafortunados, pero el problema probablemente se habría resuelto mucho más rápido si no hubiera dependido de tantos sistemas interconectados.
- No hay forma de prevenir las fallas del sistema por completo, pero hay formas de hacerlas menos probables.
- Tener planes de respaldo para cuando (no si, cuando) un sistema falla puede marcar la diferencia entre "molesto" y "catastrófico".
La reciente debacle de Facebook demuestra cómo los sistemas interconectados están destinados a fallar y por qué no deberíamos usarlos para todo.
Perder Facebook, WhatsApp e Instagram durante varias horas los lunes fue inconveniente, perjudicial para las empresas, y en algunos casos, casi catastrófico. Según Facebook, todo se debió a cambios de configuración a sus enrutadores de coordinación de red.
Es una explicación razonable, pero el hecho de que un solo error como ese podría detener no solo a Facebook, sino a otros sistemas propiedad de Facebook, es un poco alarmante.
Un cambio de configuración de enrutador incorrecto hizo que varios servicios, e incluso los auriculares de realidad virtual, dejaran de funcionar por completo. Además de eso, según la propia admisión de Facebook, también tuvo un efecto en cascada sobre cómo se comunican los centros de datos de la compañía, deteniendo todos sus servicios.
"La dependencia de sistemas interconectados conlleva un riesgo inherente de falla del sistema o incluso del servicio", dijo Francesco Altomare, ingeniero técnico senior de ventas de GlobalDots, en una entrevista por correo electrónico con Lifewire,
"Para contrarrestar este enorme riesgo, las empresas también utilizan el principio de SRE (Ingeniería de confiabilidad del sistema) como otras herramientas, que se ocupan de distintos niveles de redundancia integrados en cada capa de la infraestructura."
Qué puede ir mal
Vale la pena señalar que cuando un sistema como ese falla, generalmente requiere una tormenta perfecta de cosas que van mal. Es menos como un castillo de naipes esperando caer y más como un puerto de escape térmico expuesto en una estación espacial del tamaño de una pequeña luna.
La mayoría de las empresas toman medidas para intentar asegurarse de que la única cosa que podría llevar todo al caos nunca suceda, pero de todos modos, puede suceder.
"Las fallas inesperadas son parte del negocio y podrían surgir como resultado de la negligencia de los trabajadores, fallas en la red del proveedor de servicios de Internet o incluso problemas con los servicios de almacenamiento en la nube", dijo Sally Stevens, cofundador de FastPeopleSearch, en una entrevista por correo electrónico.
"... Siempre que se incluyan los pasos necesarios para proteger el sistema, como copias de seguridad, enrutador en el sitio y acceso por niveles lugar, estas fallas son bastante improbables ". Aunque incluso con un ejército de dispositivos de seguridad, todavía es posible que el eje fallar.
Si falla el sistema que controla elementos como formas primarias de contacto, electrodomésticos, puertas, etc., los resultados pueden ser significativos. Desde molestias leves hasta catastróficas totales, dependiendo de cuánto confíen las personas y las empresas en todo ello.
"También existe el riesgo de que los piratas informáticos ingresen al sistema desde cualquiera de los dispositivos menos protegidos, como refrigeradores y hornos tostadores ", agregó Stevens," lo que podría provocar el robo de datos y Secuestro de datos."
Cómo podemos prepararnos
No hay forma de garantizar que un sistema nunca fallará, pero hay pasos que se pueden tomar para hacer que las fallas sean menos probables o para abordarlas de manera más fluida. Sería ideal una combinación de los dos enfoques que combine las cajas de seguridad y las contramedidas con planes de contingencia y sistemas de respaldo.
"Para eliminar estos peligros creados por productos y servicios de terceros que se manejan de manera efectiva, roles y deberes con respecto a la gestión de riesgos de terceros debe describirse estrictamente ", dijo Daniela Sawyer, fundadora y directora de tecnología de FindPeopleRápido, en una entrevista por correo electrónico, "Para prosperar en este nuevo entorno, los administradores de riesgos deben comprender las partes esenciales de un ecosistema tan sofisticado".
Lo que sucedió con Facebook, WhatsApp e Instagram fue desafortunado, pero con suerte también fue revelador. Las personas que dependen de sistemas interconectados deben comprender que lo correcto que sale mal puede perturbarlo todo. Y se deben implementar (o analizar y perfeccionar) medidas para hacer que tales interrupciones sean menos probables y menos impactantes.
En el caso de Facebook, su problema no eran los problemas del enrutador, sino tener casi todo su ecosistema conectado a todo lo demás. Por lo tanto, con Facebook (el servicio) caído, Facebook (la empresa) tuvo que dedicar mucho más tiempo y energía simplemente a organizar y abordar el problema. Si no usara un sistema interconectado tan profundamente arraigado o si tuviera planes de respaldo implementados para lidiar con una interrupción como esa, probablemente habría tomado mucho menos tiempo para solucionarlo.