游戏服务器可用性问题的简单分析(2)

时间:2009-11-20   来源:   网友评论:0   人气: 360 作者:

   内存镜像有效避免了由于内存故障而导致数据丢失。镜像内存和主内存互成对角线分布,如果其中一个通道出现故障不能继续工作,另一个通道仍然具有故障通道的内存数据,有效防止了由于内存通道故障导致的数据丢失,极大提升了游戏服务器可靠性。镜像内存的容量要大于等于主内存容量,当系统工作时,镜像内存不会被系统识别。因此在投资方面,做内存镜像数据保护的投资是没有内存保护功能的一倍。

    内存热备(Sparing)进行内存热备时,做热备份的内存在正常情况下是不使用的,也就是说系统是看不到这部分内存容量的。每个内存通道中有一个DIMM不被使用,预留为热备内存。芯片组中设置有内存校验错误次数的阈值, 即每单位时间发生错误的次数。当工作内存的故障次数达到这个“容错阈值”,系统开始进行双重写动作,一个写入主内存,一个写入热备内存,当系统检测到两个内存数据一致后,热备内存就代替主内存工作,故障内存被禁用,这样就完成了热备内存接替故障内存工作的任务,有效避免了系统由于内存故障而导致数据丢失或系统宕机。这个做热备的内存容量应大于等于所在通道的最大内存条的容量,以满足内存数据迁移的最大容量需求。

    现在一个游戏服务器上安装的内存逐渐增多,在系统中发生与内存有关的错误的可能性也在增大。所以在保障游戏服务器产品可靠性上,不单单采用了Chipkill修复技术,还包括内存保护、内存镜像和热交换性能等一些纯硬件方法,以及内存热添加技术等一些软件方法全方位的保障设备的可靠性,使整个系统的可用性得到了最大的体现。

    内存镜像是将内存数据做两个拷贝,分别放在主内存和镜像内存中。系统工作时会向两个内存中同时写入数据,因此使得内存数据有两套完整的备份。由于采用通道间交叉镜像的方式,所以每个通道都有一套完整的内存数据拷贝。

    在系统芯片组中设置有 “容错阈值”。如果任意内存达到了“容错阈值”,其所在通道就被标示出来,另一个通道单独工作。但仍然保持双通道的内存带宽。
    众所周知,系统过热是影响游戏服务器稳定最主要的原因,怎样保证了游戏服务器在恶劣环境下长时间满负荷运转的温度正常?比如说采用了前进风的方式,与侧进风的方式不同,这种进风方式保证了用户实际应用过程中,让安装在机架上的游戏服务器能够有完全通畅的风源。冗余风扇只是提供了保证当一个散热风扇出现故障不能起到散热作用时另一个风扇会马上工作,保证了一定的散热能力。

    现在有些游戏服务器产品更增加了独特的导风通路,可以集中并控制风流的方向。散热问题的解决在提高了系统的可靠性的同时,有效延长部件的寿命。


 

文章评论