Appro借助Nehalem和GPU打造超级计算机HyperPower
Tesla图形处理器和他们相关的CUDA工具去年秋天实现商业化,并成为Penguin Computing和几家销售私人超级计算机的厂商的选择。搭载Tesla图形处理器的塔式X64服务器在浮点计算能力上表现出色。
Appro公司高级技术解决方案副总裁约翰.李表示,Appro公司一直保持谨慎,等待Tesla技术的日臻成熟。对于最新的Tesla卡,nVidia公司针对大规模工作负载将提供双精度数学计算能力。尽管目前这些卡比起他们在单精度计算上的表现来说,在双精度性能上还有一定差距--即Tesla单元的内存上缺乏纠错能力。但李表示用户希望能开始使用目前的CUDA环境来配置混合X64-GPU系统,因此他们在新一代nVidia GPU协处理器上已经准备就绪。
这些新一代Tesla协处理器的精确设计规格目前尚不清楚,不过李表示它将比目前的Tesla PCI-Express卡更加先进,双精度性能表现也更加出色。这些全新的Tesla图形处理器预计会在2010年上半年推出。
Appro HyperPower集群采用内置两个服务器的1U机箱。这两个双路半高服务器能支持英特尔公司目前最新推出的"Nehalem EP"至强5500处理器。每个Nehalem服务器与一个配置了Tesla S1070图形处理器的服务器应用工具相连接。Tesla S1070可以容纳4个图形处理器,每个处理器集成了240个核心,主频在1.3GHZ和1.44GHz之间,单个服务器机箱的内存为16GB。
这个应用工具通过两个PCI-Express 2.0 x16插槽(每个双路半高服务器有有1个插槽)和服务器连接在一起。根据时钟频率的不同,
占据整个1U机箱的Tesla S1070图形处理器单精度浮点计算能力从3.73万亿次到4.14万亿次,但是双精度浮点计算能力仅在3110亿到340亿此之间。
Appro HyperPower在标准的42U机架内容纳了19对Nehalem EP服务器和交叉连接了19个Tesla应用工具,核心总数达到304x64个,图形处理器核心达到18240个。机架峰值性能的单精度浮点计算能力超过70万亿次,双精度浮点计算能力为6.56万亿次。这是一个令人惊叹的位数,但却并不令人意外:当这些应用工具满载运行时,Tesla应用工具的功耗为800瓦特。
李表示Appro公司正在考虑使用现场可编程门阵列和其他协处理器技术,但是在每种情况下技术会带来显著的性能提升,编程模式必须做出改进,而且尽管这些技术能带来很好的效果,但执行起来的费用也非常昂贵。这对于采用现场可编程门阵列和其他定制超级计算机是个巨大的障碍。但是随着CUDA C++和Fortran编程环境的成熟以及双精度计算在Teslas上的使用,用户希望能从中受益。即使Appro HyperPower根据配置的不同,可能的售价在25万美元到50万美元之间。
由此可得出在执行单精度工作负载时,每千兆的费用在3.18美元到6.36美元之间。这与Penguin Computing使用同样的Tesla S1070应用工具服务器对16万亿浮点计算能力和32万亿浮点计算能力的收费在一个市场区域内。在双精度计算上,HyperPower机型每千兆的费用大概在38美元到76美元之间,而Penguin Computing每千兆的相关费用会有所上升。
Appro可以在HyperPower集群上支持红帽的Enterprise Linux 5 Update 2 and Update 3,将来面向欧洲用户还能支持NOVELL的SUSE Linux Enterprise Server 10和11。李表示出于销售的目的,他们可能还会支持微软的Windows HPC Server操作系统,不过他承认在
Appro销售超级计算机的市场上,用户并没有要求使用Windows系统(Tesla GPUs和CUDA编程环境可以在Windows服务器上运行,但是Appro只是根据用户的需求提供的备选)。
尽管Appro目前与日本服务器制造商NEC公司之间存在分销协议,NEC将负责亚洲市场的销售。但HyperPowers并不在此项协议之列