[导读]面对未来的需求,数据中心的设计变得越来越困难。统筹设计概念希望通过对每一位客户的需求、可用性要求、筹资能力以及各种商业模型的评估,来满足数据中心的需求。
面对未来的需求,数据中心的设计变得越来越困难。作为一种概念,统筹设计希望通过对每一位客户的需求、可用性要求、筹资能力以及各种商业模型的评估,来满足数据中心的需求。
在最近进行的一次调查中,要求被调查者说出所在公司对正常运行时间的最低要求。针对这一问题,大约25%的人回答,他们最低的要求是99.999%!由此不难看出,为什么现在大部分企业数据中心都将系统可用性看成是最主要的设计因素。与此同时,从业者和设计人员却很难确定针对每个公司的“理想设计”。之所以备感棘手,其中涉及到诸多原因。首要原因当属数据中心较长的使用寿命。一个数据中心有可能维持10年甚至更长,设计人员通常不会介入如此长的时间,来获得确定如何改进设计所需的反馈。
与此同时,诸如微小的设计缺陷加上低劣的操作程序等各类因素也会引发很多问题。最终,也许正是由于人们对这方面了解不够致使改进设计工作遇到困难。我们只有边做边学,将从修建上一个数据中心过程中积累的经验,应用到新的数据中心上,并加以改进。
纵观现有众多高可用性数据中心,每个数据中心的设计和运营模式差异巨大,但在很多方面却又存在着相似点。通过整合各类数据中心的数据、反馈和目标,我们希望促进并协助设计或改进数据中心的过程。
本文要讨论的主要问题是:
1. 电源设计容量的供求不平衡;
2. 预测未来的电源需求;
3. 迅速改变数据中心的功率密度;
4. 建立能够有效分配电源的基础设施;
5. 增加新数据中心的热限制;
6. 创建和优化电源冗余选件;
7. 了解运营和培训的影响;
8. 解释实现“99.999%”的可行性;
9. 系统的恢复是如何影响可用性的。
UPS供电设计容量与实际需求无法平衡
在设计和建设数据中心时,人们将预测数据中心规模看成是一个基本的程序。但是,如果预测的数据中心设计寿命是10~15年,那么这项任务就变得异常困难。在这种类型的使用寿命期内,房间内的设备可能被新一代的设备“刷新”或更换四五次。IT设备的快速更新使得最基本的未来容量预测成为泡影。
例如,摩尔定律指出集成电路的集成度每18个月翻一番。对于每一代产品来说,附加的晶体管需要成比例地增加电源容量。相应地,微处理器的热量输出也显著上升。Intel最新的Pentium 4芯片大约产生100W的热量。相比486,后者发热量不足10W。芯片密度的增加以同样的比率增大了热量的产生。由此联想到数据中心的设计,我们所看到的是,功率密度的要求在过去的几年中迅速膨胀。不久前,每平方米50W还是一个比较典型的数值,但是目前的大部分设计人员则将这一数值增大到每平方米150~200W甚至更多。仅仅在最近几年中,系统基础结构就实现了惊人的扩展,以应对数据中心的电源容量和冷却不断变化的要求。
预测未来电源需要这一极富挑战性的任务引发了最严重的数据中心问题之一,即UPS设计容量供求的不平衡。这一问题的出现不仅影响了数据中心的效率、利用率和支持能力,而且还妨碍了资本的最优使用。例如,一个大型数据中心建成后,经常需要2~4年才能达到或接近设计能力。因此,在前几年的运营中对电源容量的需求很少。而这时的用户经常会斥资数百万美元建设能够达到全部设计容量的数据中心,包括购买数兆瓦的冗余电源系统来支持数据中心。系统在以最小限度的低容量运行几年后,才能使用全部容量。在这种情况下,大量的资金用于最初的容量建设,以满足多年以后才会出现的需要。具有讽刺意味的是,在使用全部电源容量的同时,数据中心仍有很大的占地面积可供使用。出现这种情况是因为设备的功率密度在两年内不断增加,电源容量已被全部使用,但占地面积却十分充足。瞬息万变的设备技术使这种情况变得更糟,通常数据中心每四年就需要一次大修。除了大修的费用,数据中心的宕机风险也在实施过程中大幅度增加。
这对于以出租数据中心为主要收入来源的设备托管和互联网服务商来说尤其危险。这些公司在正式运营以前就要支付整个设施的费用,但是与此成本对应的收入经常是在多年以后才会收到。对于这类资本密集型行业来说,在获得收入之前承担巨大的成本负荷是极其危险的(如图1所示)。应注意的是,利用率曲线可能有很大的变化,而且两年通常是一个非常乐观的数字。从图1中可以看出,供求平衡点几乎永远也不存在,这样就会导致巨大的成本,无法实现最优的利用率。
系统的设计允许容量升级。供给始终大于需求。但是这个特别的阶段性设计方法也有局限性。由于基础设施的变更会给数据中心运营带来的风险,分四个阶段建设非常罕见。实际上,在完成数据中心最初的建设之后,通常需要在一两个阶段内就要完成整个工程。
为了改善电源设计容量与实际需要容量间的不平衡,首先预测未来的需要是很重要的。尽管困难很大,结果也总是不尽如人意,但对于长期的成功却至关重要。其次,设计过程中需要融合以前设计缺少的灵活性和可扩展性。第三,设计数据中心须注意的另一个方面是实现解决方案的定制化,使其更加标准。这不仅可以降低设计费用,而且可以加速项目的实施。
另一个与不断增长的功率密度相关的重要问题是数据中心环境中增长的热量。在数据中心,所有电力实际上都转化为热量,之后热量又被排放回运行环境中。
多数数据中心机房制冷系统都存在各种基本的设计和配置缺陷,这可能会导致无法获得既定的冷却性能,同时阻碍冷空气的流通。这些问题通常不会被发现,因为计算机机房运行的功率密度通常远低于设计目标。然而,随着IT设备功率密度的增加,使得数据中心机架微环境逐渐接近其设计极限,进而暴露出了无法提供有效冷却性能的问题。
低效的冷却性能除可能降低系统可用性外,还可能导致成本大幅增加。设计的缺陷可能将冷却系统的效率降低20%或更多。图3所示为典型数据中心功率消耗分布,冷却系统消耗的功率接近整个IT负载消耗的功率。冷却效率降低20%,便可能导致整个功率消耗增加8%。
要对数据中心的冷却系统进一步优化,不仅要考虑冷却设备自身的设计和规范问题,还要注意整个冷却系统为设备提供冷空气的过程。
事实上,不断增加的散热需求对于目前的数据中心来说无异于又多了一个负担。当环境温度超过一定限度时会导致系统发生故障,而系统故障最终会导致意外的宕机。尽管现在的高架地板上通常可以放置新的空气处理器,但是高架地板的高度对额外的空气流动不利。尤其是电源和数据电缆数量的增加以及更大的冷却水管可能会妨碍地板下空气的适当流动,最终导致缺少足够的静压来冷却高密度的机架设备。解决问题的一个办法是在相应的设备前增加额外的出风口。这通常可以增加该点上的制冷量,但同时也会影响其他区域的静压。
另一个类似的方法是增加空气处理器的功率。如果能够用更大的风扇吹出更多的空气,出风口就会得到所需的静压和冷却。但是在某些的情况下,结果恰好相反。功率大的马达产生的流速快的气流可能会在邻近的出风口处产生文德里效应。文德里效应是一个基本的空气动力学定律。根据此定律,当流体以相对较高的速度通过一个表面时,对表面的压力就会降低。
文德里效应会导致某些部位致冷效果变差,使设备运行变得不安全。过去,即便数据中心失去致冷功能1个小时甚至更长时间,也能保持安全运行。但是如今,高密度数据中心产生的巨大热量意味着如果致冷暂停几分钟,温度就会上升,从而威胁设备的运行。
快速散热的要求不仅影响系统设计,而且会影响致冷设备的维护。过去,在更换过滤器或维护空气处理器时,出现短时间断电不会有太大影响,但现在所带来的危险已不可同日而语了。
因此,更高级别的空气处理器冗余配置变得越来越普遍。附加的冗余配置使维护工作和设备故障不至于威胁到整个系统。这方面,一些基本的方法已经取得了较好的效果,例如“热通道—冷通道方法”。该方法是一种机柜布局方式,有助于最大限度地增加设备机柜入口处的冷气量。
使用这种方法,机柜的前端彼此相对,并在相应的通道中装有出风口。这样就形成了“冷通道”,有助于设备入口接受冷却空气。在后通道上,每个机柜的背面彼此相对,热空气排进该通道中就会上升并产生更强的对流循环。
致冷问题还表现在一些采用电信设计规范的数据中心。这些数据中心拆除了高架地板,在顶部使用大流量空气处理器实现冷却。但实际上,采用这种做法冷却的是整个房间,而不是机柜。同时该方式还可能存在诸如冷却水泄漏和冷热空气混合的问题。
关于系统可靠性和可用性的讨论
就数据中心的统筹设计而言,必须讨论的另一个重要问题是系统的可用性和可靠性。很多客户、设计人员和设备提供商在谈到可用性时很少采用量化的概念,也很少了解实现这些目标须采取的措施。例如当前业界使用非常频繁的“99.999%”。“5个9”相当于每年5分钟的宕机时间。目标固然理想,但是要在很长时间内保持这一标准就必须满足一些实际要求,而这些要求却常常得不到设计者足够的重视。
对可用性的误解
一个常见的误解是可用性是在限定的时间间隔内测量出来的数据,而不是一个连续测量值。例如,如果数据中心一年未发生宕机,但在随后的1个月发生了1小时的断电。在这种情况下,如果说数据中心在除了该月之外的所有月份都达到了“5个9”的可用性,那么从技术角度来讲这是不准确的。实际上,1小时的断电会使数据中心的可用性在12年内达不到“5个9”的目标。
可用性是在系统运行寿命期内的连续测量值,它是用总的正常运行时间除以总的运行时间得出的。通过调整时间框架,尤其是缩短所计算的时间,系统可用性目标的实现变得相对容易一些。每个月签定的服务级别协议就是其中一个常见的实例。将可用性时间划分为1个月的时间间隔可以达到高级别的可用性目标,但是相对于真正的系统可用性而言则没有太大的意义。
在确定可用性目标时,人们很少为确定数据中心实际可能达到的潜在可用性目标而进行认真的分析。部分系统每年可能发生几十次一两秒钟的断电,1 分钟以下的中等程度的断电事故在一年内可能出现5~6次,1小时或更长时间的断电可能一两年才会出现1次。
在建立这样一个系统模型时,需要考虑频度和持续时间的事件密度函数。即使5秒钟的断电也可能会导致发电机启动,并影响不间断电源电池。从根本上来说,对一个复杂的电源系统来说,一个5分钟的事件与60个5秒钟的事件之间有着巨大的区别。
与此同时,还要考虑重新启动和恢复时间,一次1秒钟的断电可能会使服务器宕机20分钟。因此,考虑可用性时存在很多的统计属性和非线性关系,使得这种可用性计算变得非常困难。不考虑这些电源事件因素的模型得到的结果是没有意义的,甚至会导致错误的结论。
对冗余系统的正确评估
实现可用性的下一个步骤是评估电源系统的冗余和可维护性策略。常用的冗余形式各异,但常常缺少优化的方法。
UPS系统采用了全面的系统冗余(2N),但是单电源负载是由一个PDU供电的。而这个PDU又串联了,成为单路径故障点。其中包括系统输入断路器、变压器、输出断路器、主配电盘断路器,以及支路断路器。在某些设计中可能形成5~7个单路径故障点。
这种设计使UPS系统有充足的冗余,但是在配电系统中却没有。这样一来,会导致可用性瓶颈,或一部分可用性较高,而另一部分可用性较低。假定宕机时间是可累加的,可用性不高的环节始终会妨碍系统达到最优的可用性,这在统筹设计过程中是一个需要特别考虑的重要因素。一个系统内部的可用性差异意味着,如果在一个地方花费过多的资金,其他地方的投入将减少。实现平衡对于最大限度利用资金获得最佳的可用性来说至关重要。
MTTR对可用性的特殊作用
优化可用性的另一个方面与恢复时间有关。可用性是与平均无故障工作时间(MTBF)、平均恢复时间(MTTR)相关联的函数。所有的系统都会在某个点上出现故障。这是事实,但是,可用性高的系统不会受到太大影响,并且可以快速、高效地修复。有证据显示,如果MTTR过长,就不可能达到较高的可用性。
平均恢复时间对提高系统可用性的作用远大于平均故障时间(MTRF)的作用,其原因有以下几点:
第一,MTTR对提高可用性的作用是MTBF根本达不到的。
第二,提高MTBF值对可用性的提高并不是总有效的。
第三,MTTR的变化与可用性总是呈线性关系。
另一个需要了解的影响可用性的情况是,数据中心的操作人员无法控制一个部件的MTBF,但是在很大程度上,MTTR是可以控制的。数据中心操作人员可以控制MTTR,这就要求现场必须储存100%的备件,操作人员需要接受有关设备操作的培训,同时要了解必要时更换或维修设备的程序。
考虑备件库存是建立数据中心可用性预期的一个重要组成部分。为此,应对本地人员进行培训,详细讲解操作程序。与涉及关键业务设施的其他领域相比,数据中心的操作人员接受的培训少,操作程序亦很简单。此外,复杂性也是造成宕机的重要原因。有最近的统计数据显示,高达50%的宕机与人为错误有关。很明显,必不可少的培训和备件是实现高可用性的先决条件。
EPO对可用性的影响
可用性数据是建立在统计学或经验数据的基础上。而这些统计或经验数据又都是基于以前的运行经验。
其中有一个原则是关于数据中心紧急断电(EPO)开关的使用。在大部分情况下,EPO系统是必备的,而且它们被设计成数据中心必不可少的重要环节。出于安全原因,它们能够立即使数据中心完全宕机,但在其设计方面也常有不足之处。鉴于它们对数据中心的影响,必须详尽地考虑这些因素,仔细检查隐藏的陷阱。
第二个原则被认为是提高可用性的关键原则。该原则指出,高可用性系统要在系统出现故障时使系统的状态变化最小化。某些系统设计时尽管提供了冗余措施,但如果一个部件发生故障,仍然需要进行状态的多种变更。换句话说,如果出现故障,最好不要改变状态,也不要重新确定电源路径,或者被迫启动系统;而且此时替代系统已经可以运行,且准备就绪。这样的系统冗余最可靠,但也会更昂贵。
综上所述,在建立完全适合客户需要的系统过程中,需要统筹考虑以下各种因素:
当前的系统需求
后期未来的系统需求
系统可用性要求
资金预算状况
商业模型
认真地检查所有这些因素,会使客户满意度达到最高水平,并使项目和业务的成功概率达到最大。
|