14万3千枚CPU:探访中国首台自主超级计算机(2)

时间:2012-12-09   来源:   网友评论:0   人气: 2525 作者:

不过,这些应用的软件大都是国际上共享的软件,国内在应用上的研发缺失让济南超算中心研发部总经理潘景山感到一丝遗憾。

据介绍,目前国内仅有的四大超算中心,包括在建的长沙中心,天津、深圳中心都是采用GPU为主的异构架构,只有济南超算中心是国产CPU和底层软件系统,机器成本比采用国外处理器和系统的成本低,但研发成本远比采用国外产品的大。

“仅Cpu的研发就是十几年时间,我们在硬件上与国外产品水平相当,但在应用软件上,差距在30年以上”

应用软件的开发不是一个简单的过程,需要计算专家、行业专家共同参与,一个项目的开发需要200人年左右,投入使用年限都在20至30年。

“美国三大实验室,有几千人在应用领域研发,计算机专业的只百人团队。”潘景山对比国外在超算应用领域的重视,看到济南超算中心的40位员工,很有压力。

国外在超算系统与应用的开发投入上1:2 或者是1:3的比例,国内在软件应用上投入的人力资金仅有硬件系统的1/5。“大型软件,像海洋、气象这类,70年代的代码、90年代的代码都可以找到,是长期积累下来的东西,海洋、气象软件可以免费使用,但还有好多领域需要自行研发,我们现在是有大量数据,缺计算软件这样的工具,眼看着数据不能挖掘出智慧。”

从神威蓝光运行以来,很多个周六潘景山就是和同事们一起在超算中心加班度过的,记者在周六的采访也是他们众多工作日的普通一天。

疯狂博士带你看超级计算机

相信各位读者都曾经看到中国某某超级计算机又勇夺世界排名多少位之类的新闻,对“天河”、“银河”、“神威蓝光”等等关键词记忆犹新。

不过在我们的想象中,对超级计算机的认识却仅仅停留在“运算能力比普通电脑强很多”这个层面上。

到底超级计算机是个什么样子?它的各部分硬件和普通电脑有什么不同?其实包括疯狂博士自己也想把它弄个明白。10月13日,疯狂博士亲自深入国家超级计算济南中心,为大家揭开超级计算机神秘的面纱!

sw03.jpg 


神威蓝光的主要技术参数,8704核心、2PB的存储空间相当抢眼

sw04.jpg 
sw05.jpg 

系统为正在运行的项目配置了8704颗CPU,屏幕上绿色显示闲着的CPU主要分布在第3号机仓。



整套神威蓝光超级计算机有多大?这只是其中1/4不到

sw07.jpg 

打开其中一台机柜,可以看到很多层刀片机
 sw08.jpg 


为什么每一层有三个电源开关?因为一层有三部电源,两部是备用的

sw09.jpg 


机柜中黄色的是光纤线(内部数据通信),蓝色的是千兆网线(与控制室通信),各单元之间直接用PCB连接进行通信

sw10.jpg 


最高带宽达到69.6TB/s

走进神威蓝光超级计算机的机房,可以看到很多立式的机柜,在机房正中间摆成一圈的机柜正是神威蓝光,旁边排成一行的是常规的X86架构服务器机柜(从前面的机房布局图也能看出来)。

疯狂博士也见过不少大型机房,不过神威蓝光给我的最大印象就是非常安静!和旁边发出巨大噪音的X86服务器形成了鲜明的对比。

经工程师介绍,神威蓝光全部采用水冷设计,一是比风冷省电,二是几乎零噪音(这个我们后面详细介绍)。

工程师打开机柜,一层层的刀片机引入眼帘。经工程师介绍,每一片上有两颗处理器,每颗处理器有16个物理核心,每颗处理器配备了16GB DDR3内存

疯狂博士发现刀片机上有三个电源开关,原来每一片都配备了三个独立的电源,就算有一个坏掉,另两个也能及时补上,大大保证了服务器的可靠性和稳定性(三个一起坏?这几率太太太小了)。

从机柜背后可以看到,各个节点之间是用光纤进行连接的,这样才能保证足够的数据带宽;而刀片机之间是直接用PCB连接的,数据带宽更高。

那么千兆网线这样显得比较“慢”的网络连接是用来做什么的呢?其实是用来连接监控单元的,监控对于数据带宽要求很低,所以一般的网络就行了。


 

文章评论