高性能计算技术在能源行业里的应用

时间:2009-07-10   来源:   网友评论:0   人气: 243 作者:

近日,英特尔2009年度高性能计算研讨会在成都举行。来自英特尔、IBM、浪潮、戴尔、中石油、中石化、国家电网等单位的技术专家汇聚一堂,就高性能计算相关软硬件技术发展趋势及其在能源行业的应用进行了深入探讨。

  中石油东方地球物理公司研究院处理中心总工程师赖能和在演讲中谈到,过去3年里,由于中心计算系统规模增长很快,如何管理好、用好这些大机器已经成为焦点,目前东方公司已经开始利用数字化技术来实现有效的软硬件资源管理。
  据了解,目前东方公司已经拥有规模达15000颗CPU的PC服务器集群,运算能力达到230万亿次/秒,占到了中石油总体集群CPU核数的的46.2%。这些整装、规模化的软硬件资源,为保证处理周期、及时提交成果,提供了很好的保障,但也带来管理上的难度,具体表现在四个方面:
  1、机柜很多、节点多,坏了也不清楚,使用情况无法及时掌握。
  2、存储阵列很多,无法做预防性维护,使用情况无法及时掌握。
  3、数据交换机多,出现网络问题后很难判断在哪里出问题。
  4、没有科学、合理的调度和管理手段。

  赖能和谈到,随着计算系统规模从过去的百来十颗CPU扩展到现在的上万颗CPU,本身就需要有科学的管理办法和手段。“硬件水平高,应用效率低下,运营成本快速增长”是东方公司面临的另一个困扰。PC Cluster系统的计算理论峰值和实际应用效率和性能差距很大,比如CPU年平均利用率在运行叠前偏移时能达到约65-75%,而常规地震处理系统和调试目标线的集群利用率都很低,还不足20%。在运营成本方面,突出表现在近3年电费快速上升,仅2008年一年电费就达到千万元。

  而且,随着计算机房规模扩大之后,生产与设备的安全问题也开始突出。目前,东方公司共拥有150多个PC Cluster机柜、100多个存储机柜、十几个机房、5个靠前处理机房,如此庞大的软硬件设备给生产和设备运行安全带来一系列的问题。因此,很有必要开发和采用先进、高效的数字化管理技术,实现软硬件资源的科学化管理。其实,针对大规模数据中心的扩展和可管理问题,英特尔已经提供了一些解决方案,比如最新的至强5500跟过去的单核产品相比,可以提供9倍的性能提升,具有很好的整合特性,同时得益于在功耗方面的精确控制,可以帮助用户在数月之内收回投资成本;另外,英特尔VT虚拟化技术、英特尔数据中心管理器、NodeManager在“提高利用率,降低功耗”方面也能助到一臂之力。比如,对于很多从IDC租用服务器的企业来说,由于受制于租用IDC的供电、规定影响,每个机柜上架服器数量有上限,从而影响每个机柜的整体性能能耗比。腾讯在采用英特尔全新的至强5500平台可以提升单个机柜服务器计算性能高达60%以上,预估服务器Rack上架密度提高20%以上,提高每单位Rack计算性能60%以上。

  为了解决上述问题,东方公司引入了数字化管理技术:
  1.开发数字化管理软件平台,实现所有运行项目的数字化管理,可以对所有软硬件资源进行集中管理,也可以跟踪监控生产项目进度和使用的资源情况。
  2.开发CPU资源管理平台,对PC Cluster机柜统一协调管理。无论是整个机房的CPU利用率和网络忙闲情况,还是某个机柜的CPU利用率和网络状态,都一目了然。
  3.开发存储和网络管理软件,实现所有存储资源的远程集中监控,包括事件告警、性能、拓扑结构等。
  4.开发UPS、空调、配电实时监控软硬件,确保设备安全。比如其位于北京的机房就可以对UPS、空调、配电开关、温湿度、空调漏水、视频录像、消防烟感、线缆温度等进行监测,同时设置了手机短信报警、远程权限管理、历史事件查询等功能。

  赖能和在会上还展望了石油行业对高性能计算应用需求的发展趋势,主要体现在以下五个方面:
  1.基于多核CPU技术的刀片式服务器已成为高性能计算发展趋势。
  2.GPU技术为地球物理高密度运算和可视化处理带来新的机会,但GPU现在也面临很少软件支持的困境。


 

文章评论