Supercomputing2009国际会议见闻

时间:2009-12-16   来源:   网友评论:0   人气: 318 作者:

2009 年11 月16 日,我们从北京出发,前往洛杉矶再转飞波特兰,参加2009supercomputing 国际会议,由于我们只注册了参展商,只能在展览区活动,不能去参加技术类讲座。但这也使我们有足够的时间了解国际顶尖公司在高性能计算机系统方面的最新研究进展。以下总结几点体会:

1. Intel业界的领袖地位再次得到体现

展览会上,Intel公司具有很大的展台,在展台上安排Intel自己和合作厂商的技术讲座了,每半小时一个,内容丰富。Intel还组织了一个Tour,由Intel的导游带领参观者前往七个Intel公司的合作厂商的展台上参观,这些合作厂商都是采用Intel处理器设计服务器的系统厂商。
最有代表性的是SuperMicro,他采用Intel Nehalem处理器设计了世界上密度最高的风冷刀片系统,在7U的空间内,可以放置两层共20个双路刀片。产品具备高能效的电源(转换效率达94%),以及低噪音设计,在配备10个双路刀片节点时运行的噪音不大于50分贝。

很多1U 服务器采用双路twin 设计,实现1U4P 解决方案。或2U 双twin 设计,实现2U8P解决方案,还有在1U 空间里安置1 个双路服务器和两块GPU 卡的设计。
pic2.jpg 
1U2P+2 GPU

由于Intel Nehalem CPU 的推出,使得Intel 与AMD 的技术路线趋于一致,导致构造多处理器系统的设计简化,访存性能和互联性能增强,再加上Intel CPU 在主频和功耗方面的优势,使得Intel 的老大地位进一部得到加强

2. IBM 把高性能计算机的结构和工艺做到了极致
展会上IBM 展出了基于Power7 CPU 的256 路CC-NUMA 系统。在2U 空间内布放256 个核,单机箱的计算能力达到8Tflops,功耗10KW。
pic4.jpg 
该系统包括8 个CPU 模块,每个模块都是4CPU 封装在一起的MCM,同一MCM 上的4个CPU 间采用全互联结构,不同MCM 之间也采用全互连结构,每个MCM 连接一个HUB芯片,HUB 芯片输出PCI-E GEN2 I/O 接口和机箱间扩展
pic5.jpg 
Power7 系统拓扑

pic6.jpg 
IBM Power7 MCM

Power7 系统的内存也采用专用设计,在每个内存子卡上都有两片高速信号适配芯片。在系统后面有128 个扩展光纤接口,可以与其他系统直连实现规模扩展。
Power7 大容量的L3 通过内部互联结构连接,据说处理器核心互联的带宽达到了500GB/s,经过了大容量L3(L4)的筛选之后,仍然需要大量的内存带宽,Power7 提供了两个DDR3内存控制器,每个控制器支持4 个DDR3 通道,大约支持到主流水准:DDR3-1600,这样内存控制器可以提供100GB/s 的带宽。为了更好地支持多个内存通道,并提高性能,Power7
每个内存控制器都具有16KB 的重调度缓存来重新排序内存存取请求。
Power7 的一个重点是多路处理器,Power7 实现了SMP 的硬件一致性处理。Power7 通过三个方面的设计来达到32 路SMP 能力:巨大的带宽、特别的拓扑结构和特别的一致性协议。Power7 的处理器间总线可以提供360GB/s 的带宽。
Power7 使用了一个两层的拓扑模型:4 个处理器组成一个本地SMP 组(需要7 个本地I/O 总线),然后8 个SMP 组之间两两直接互联(每个SMP 组需要7 个外部I/O 总线),为了实现这个目标,Power7 提供了两个总线:一个用于本地SMP,一个用于远程SMP。总线的位宽是120Byte。

此外为了支持这个拓扑结构,Power7 的一致性协议混合了两种一致性消息的广播方法:
一种是全局广播,一种是本地SMP 组的猜测性广播。这个一致性协议定义了13 种状态(Nehalem 使用的MOESI 是5种),并通过缓存线上额外的设置位,Power7 最终实现了复杂的结构,在32 路处理器、8 核心、总共256 个处理内核的SMP 系统里,可以同时维持20000个缓存一致性操作。

该系统的高度为2U,长度大约是1.5m,宽度大约是1m。非常壮观。在这一个箱子内就有256 个CPU 核。8 核4CPUX8MCM=256 核。整个系统支持Cache 一致性。

系统具有16 个PCI-E GEN2 16X I/O 接口,可以连接GPU、Fiber Channel、Infiniband 等设备。


 

文章评论