若何保持系统的高可用性?

2020-05-21 365bet 阅读

  原题目:若何保持系统的高可用性?

  媒介

  1979年3月28日美国宾州的三哩岛核电站爆发局部队芯熔毁的严重事件,迫使25万周边居平易近转移。

  1986年1月28日美国佛州的应战者号航天飞机爆发升空后爆炸,形成7名宇航员全部遇难。

  2011年7月23日北京南开往福州的动车与杭州开往福州南的动车组追尾,40人逝世亡。

  2012年2月28日微软的 Azure 云效劳大年夜面积效劳中缀,宕机工作超越24小时。

  2012年6月15日亚马逊的 AWS 云效劳因停电形成效劳中缀大年夜约6小时,影响遍及。

  2015年5月28日携程官网因操作毛病招致缺点惹起效劳中缀长达14小时。

  2018年6月28日阿里云因为运维操作掉误出现了大年夜范围的缺点。

  …………

  不管是宇宙飞船、平易近航客机、高速铁路、电子邮件、即时通信、电子商务、电子支付,照样收集游戏、在线直播和金融效劳系统,用户都欲望需求的效劳能呼之即来,来之能用;运维人员都欲望自己的系统永久不爆发事件。那么现在的互联网技巧可否有能够保证系统有金刚不坏之身,保持100%的高可用性呢?

  

  其实,早在1984年耶鲁大年夜学社会学传授查尔斯·佩罗(Charles Perrow)就颁布发表了一本很有影响的专著《高风险技巧与“正常事件”》。佩罗论证说,因为高技巧系统的各个构成单位之间存在着高度耦合,而耦合所形成的相互感化敏捷升级令人类胜利控制系统时机不大年夜。而且,那些设计来保证平安的单位常常自身也会出现缺点。例如美国三哩岛核电站事件的原因就是平安阀出了缺点,用来在撞车时减震的气囊伤人的事也偶有爆发。因此,从某种意义上说,现代互联网的高度耦合系统所固有的复杂性使事件不成防止,这类事件将是“正常事件”。

  

  预先剖析过程的三个阶段

  那么若何才华增加关键系统事件的概率呢?可否有甚么好的方法和最好实际呢?俗语说“掉败是胜利之母”,我们强调从毛病中进修经历和改良毛病的主要性,重视事件而且不时地从中进修并改良现有系统的架构和流程才有能够降低掉败的概率。《架构即未来》总结出了一个复杂易行的进修和改良过程。关于所经历的任何严重后果,我们置信一个组织应当采取下面刻画的预先剖析过程,经过一模一样的三个阶段来处理后果:

  

标签: