冲击超级计算机Top500 曙光总裁详解“星云”

时间:2010-06-08   来源:   网友评论:0   人气: 138 作者:

今年国内最瞩目的HPC产品莫过于超千万亿次的曙光“星云”超级计算机,其设计之初定位于千万亿次性能,计划采用基于x86架构的模块化刀片服务器。由于一年两度的Top 500全球超级计算机排行榜即将发布(一般是在每年6月和12月),而曙光“星云”超级计算机正在加紧调试和冲击最高性能(超算的评测需要很长的调试时间已达到最佳性能)。记者日前就最新一款基于模块化服务器的国产超千万亿次计算机采访了曙光公司总裁历军先生。

    

曙光公司总裁 历军先生


  曙光千万亿次超级计算机定名“星云”

  “超级计算机中有‘星群’概念,与以往集群不同,星群的每一个节点都很强,这样汇聚起来就像一个灿烂的光球。另外,云计算现在是热门的概念,而超级计算机是云计算的重要组成部分,‘星云’在投入运行之后将担当云计算中心的重要角色。这就是曙光千万亿次超级计算机命名为星云的原因。”曙光公司总裁历军先生解释了星云名称的来历。

 

温家宝总理视察曙光星云超级计算机之后讲话


  前不久,温家宝总理视察曙光天津产业基地时表示,加大结构调整力度,要加大战略性新兴产业的发展。而曙光“星云”千万亿次的通用计算能力再次证明了,中国最大的潜力在于我们的智慧和创造力,和勇于突破难关的坚韧不拔。(引自中央电视台《新闻联播》)

  “总理的话说到我们心里去了,从1995年曙光1000每秒25亿次的超级计算机,到现在千万亿次超算的实现,短短15年间超算性能提升了40万倍。”历总感慨良多:“在多次进入前10名之后,今年TOP 500曙光‘星云’超级计算机将努力冲击,争取更好成绩。”据了解,“星云”超级计算机将继续在天津曙光产业基地调试,并于年底交付国家深圳超算中心。

  配置性能揭秘 “星云”与“天河”区别明显

  曙光“星云”超级计算机和“天河一号”的主要区别有两方面:一是架构上天河一号主要是GPU计算+x86处理器;而“星云”是模块化服务器(按计算需求自行选择主要计算组件)——前者是众核计算做并行处理,后者是国产模块化刀片服务器(x86处理器+GPU计算卡)的异构体系。第二方面是可靠性方面,众所周知传统GPU计算在可靠性方面由于缺乏ECC奇偶效验等RAS特性因此计算可靠性被人诟病;而“星云”中由于采用的是模块化服务器,每节点可容纳10块GPU计算卡,因而在较重要的节点可实现多卡冗余的计算模式(互相比对),保证了数据可靠性。

  从性能上来看,“天河一号”的峰值性能在千万亿次,平均Linpack性能在500多万亿次。而“星云”超级计算机的实测性能平均在千万亿次——全球之前只有“走鹃”和“Jaguar”达到了平均千万亿次的性能。从实用角度看,“星云”超级计算机的效能名列前茅,是一台通用性超级计算机——已有的x86处理器的强大生态环境和可根据应用调整的模块化服务器提供了保证。

  据记者了解,“星云”超级计算机采用的是曙光最新的SSI模块化刀片服务器TC3600作为节点();网络方面采用了QDR Infiniband模块(最高速率的互联模块);此外,由于TC3600的I/O扩展性,每个节点还配备了10个GPU计算卡,在针对“华大基因”这类公司的微生物计算方面拥有明显优势。

  应用丰富 “星云”未来是云计算中心

  对于很多人质疑这类超级计算机应用是否跟得上的问题。历总表示,曙光5000“魔方”以20倍的计算性能提升取代了曙光4000。而进驻上海超算的当天,“魔方”就挂载了30%的负载,去年已经全部满载并开始计算任务排队。可见国内超级计算的需求在不断增长——


 

文章评论