如何应对云计算系统宕机?
如果我们可以从上个月发生的AWS停用事件中得到一个教训的话,那么我想应该就是“云计算故障总是会发生的”。IT专业人士以及其他的专家均表示,如果你希望在发生故障事件时你可以迅速作出反应,那么你最好事先就做好应对计划。
根据不同应用程序和数据的不同重要等级,那些应对计划包括在客户自己的数据中心中运行冗余服务器,或使用多个云计算供应商来建立网络。
时刻做好发生故障的准备,LiveFamily的创始人和CTO David Blinder说,LiveFamily是一个从事家谱研究的Facebook应用程序,同时也是位于华盛顿州Bellevue Intelius公司的一个部门。
在Amazon网络服务(AWS)基础设施上运行的LiveFamily在六月中受到了两次停用事件的影响,虽然其危害并不是灾难性的。这部分是因为该公司使用了RightScale公司的云计算管理包,如果情况需要而且用户愿意支付费用,该产品可重新分配路由和网络流量至不同的云计算供应商。
但是,提供高层次弹性功能并不是免费。专家提醒说,客户需要自行决定哪些应用程序是真正关键重要的。
IBM公司的业务连续性和弹性服务组向他们的潜在客户进行了一次调查,内容就是在建立托管服务前哪些应用程序是关键,IBM公司的杰出工程师Rich Cocchiara说。
“让我们确定你需要拥有的服务等级,为你提供你所需要服务种类的服务等级对象和协议,”Cocchiara说。“顺便说一句,并不是所有的业务流程和应用程序都是一样的。”
保护系统停用可以非常简单,就如同在客户的数据中心中保持私有云计算设备。或者,它可能需要在不同的AWS可用性区域设立镜像站点;它也可能很复杂,如运行多个云计算平台。
“我们确实曾受到影响,但是我们的缓冲系统通过在发生问题时切换回本地处理与存储基础设施而挽救了我们,”匹兹堡LAN联盟主席Colin Dean说,这是一个举办视频游戏运动赛事的组织。“有某种故障安全的考虑是理想的,即在发生故障时,把你的网站转至备用。”
AWS宕机事件放大了云计算的重要性
AWS在六月发生的两次宕机事件都是由电气故障引起的。第二次停用事件源于东海岸发生的大规模雷电天气所引发电气备用系统发生不可事先预见的故障。停用事件也对公司位于美国东1区的可用区域之一造成了影响,该区域是AWS最大的一个,其中至少有10个数据中心。
在6月29日至6月30日晚上的几个小时中,诸如Pinterest、Netflix以及Instagram等大量的大型网站都不可用。
此外,宕机事件也造成了AWS“控制面板”的崩溃问题--这也使问题进一步恶化。
就公司本身而言,Amazon已表示,公司将重新认证或更换未能正常运行的备用发电设备,同时调整硬件参数,如在切换发动机电源前等待多长时间以便于电源波动稳定下来。
AWS表示,这次最新发生的宕机事件并未影响“显着”数量的客户,虽然只有一个基于云计算的交友网站表示,受停用事件影响它将更换云计算供应商。
AWS没有透露有多少客户或用户受到了宕机事件的影响。
LiveFamily有幸提前做好了应急预案,并在发生问题时成功地在不同的可用区域中运行AWS实例,虽然问题的发生是情有可原的,但是我们“确实受到了影响”,Blinder说。
RightScale云计算管理:Opscode Chef简化恢复任务
除了提供其他的云计算自动化功能,包括RightScale公司的云计算管理以及其他诸如Opscode公司的Chef在内的产品可以有助于简化客户从停用事件恢复的操作任务。
“故障总是会发生的,”位于西雅图Opscode公司的CCO和共同创始人Jesse Robbins说,Opscode公司主要致力于Chef云计算基础设施自动化产品。
与RightScale类似,Chef支持多种云计算平台,其中包括AWS、OpenStack、微软公司的Window Azure,同时该公司刚刚宣布支持Google公司的计算引擎。
“如Chef这样的工具可帮助你在发生故障时自动转换至另一个云计算供应商或为你提供自己的云计算,”Robbins补充道。“如果你的前期准备工作做得充分,那么发生故障仅仅只是一次意外事件,一次紧急事件,而非一场灾难。”
Jeremy Przygode是位于洛杉矶Stratalux公司的共同创始人和CEO,AWS的经销商,Opscode的客户。提供基于云计算技术管理服务的Stratalux公司也有部分客户受到了六月下旬发生的停用事件的影响,但是公司处理事件显得从容不迫。“问题发生了,”Przygode说。
运行多个云计算:复杂却有效
对于那些真正无法承受停机时间的客户来说,诸如RightScale、Opscode以及其他供应商提供的工具可使客户运行多个云计算,但是这种做法是比较复杂的。
“这真的很难做到,”位于康涅狄格州斯坦福德的Gartner研究公司首席分析师Kyle Hilgendorf说,“你必须在另一个供应商那里保留一个确切应用程序栈的镜像副本,然后你必须弄清楚如
果其中一个发生故障时你该如何应对故障,切换至正常的云计算供应商。”
事实上,很多专家都认为,在云计算中实施关键任务应用程序实际上可有助于防止停用事件。
“我的专业背景告诉我,云计算绝对是防止这些类型停用事件的工具,即提供某些客户用户之前不曾拥有过的某些功能,”IBM公司的Cocchiara说。
“因此,云计算不仅实现了价格实惠,而且因为它依赖于多个云计算中心,从而赋予用户们决定他们应采取何种风险水平的能力,”Cocchiara补充道。
(责任编辑:admin)- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。