东工大采用GPU构筑超级计算机,单精度性能居世界前列
时间:2008-12-11 19:05:00
来源:UltraLAB图形工作站方案网站
人气:6662
作者:admin
东京工业大学采用美国NVIDIA的最新图形处理LSI(GPU)构筑了高性能计算机(HPC)系统,并已开始运行。这一消息是在目前正在举行的高性能计算机相关国际会议及展会“Super Computing 2008”上透露的。
该大学曾于2006年构筑过名为“TSUBAME Grid Cluster(TSUBAME)”的HPC系统,在能够处理长度超过64bit的数字的“双精度”浮点运算中,运算速度达到38.18TFLOPS,在06年6月的HPC排名“TOP500”中位居全球第7位(参阅本站报道)。虽然之后也提高了性能,但很难赶上全球HPC系统迅速实现的高速化,在08年6月公布的TOP500中,运算速度为67.7TFLOPS,排名跌至第24位。
此次的系统在已有的TSUBAME上,追加了170个NVIDIA公司于08年11月18日刚刚宣布上市的由4台GPU组成的机架用运算单元“Tesla S1070”。“追加工作是在10月中旬花费一周左右的时间完成的。当时认为只要去做就能成功”(东京工业大学学术国际信息中心教授松冈聪)。
在长度为32bit的单精度运算中,单个Tesla S1070的运算能力最大可达到4.1TFLOPS。170个合计的峰值性能为4.1TFLOPS×170=697TFLOPS。加上现有的TSUBAME的运算能力,整体峰值性能达到910TFLOPS。单从数字来看,只差一点就达到1PFLOPS,可以说是全球最高水平的运算能力。“如果按照单精度来排名的话,可进入全球前10名”(东京工业大学研究人员)。
但是,TOP500评价必须包括双精度计算。另一方面,NVIDIA公司的GPU从此次才开始正式支持双精度运算,其运算速度大大低于单精度。此次追加系统部分的双精度运算能力的峰值性能为59TFLOPS。
结果,整个系统的双精度运算的峰值性能仅为170TFLOPS。在求解用于TOP500评价的联立线性方程的程序“Linpack”中,有效性能为77.48TFLOPS,在最新排名中位居第29位,未能实现提升。
松冈排名未提升的原因归结为以下两点,(1)因突击工程调整不足;(2)Linpack与此次的系统不匹配。松冈表示,“如果仔细调整,Linpack速度也能达到90TFLOPS左右。但在此次的系统中,Linpack是一个会产生轻微不良后果的应用程序。通过下工夫,多数科学计算都可以单精度运算获得出色结果。实际上,可以说此次通过一些提高性能的措施,获得了位居全球前列的高运算能力”。
另外,NVIDIA公司上市的最新GPU产品方面,用于工作站的产品称为“Tesla C1060”,工作频率为1.296GHz。在此次的Tesla S1070中,虽然采用相同的硬件,但工作频率却达到了1.44GHz,运算性能也稍高。(记者:野泽 哲生)
该大学曾于2006年构筑过名为“TSUBAME Grid Cluster(TSUBAME)”的HPC系统,在能够处理长度超过64bit的数字的“双精度”浮点运算中,运算速度达到38.18TFLOPS,在06年6月的HPC排名“TOP500”中位居全球第7位(参阅本站报道)。虽然之后也提高了性能,但很难赶上全球HPC系统迅速实现的高速化,在08年6月公布的TOP500中,运算速度为67.7TFLOPS,排名跌至第24位。
此次的系统在已有的TSUBAME上,追加了170个NVIDIA公司于08年11月18日刚刚宣布上市的由4台GPU组成的机架用运算单元“Tesla S1070”。“追加工作是在10月中旬花费一周左右的时间完成的。当时认为只要去做就能成功”(东京工业大学学术国际信息中心教授松冈聪)。
在长度为32bit的单精度运算中,单个Tesla S1070的运算能力最大可达到4.1TFLOPS。170个合计的峰值性能为4.1TFLOPS×170=697TFLOPS。加上现有的TSUBAME的运算能力,整体峰值性能达到910TFLOPS。单从数字来看,只差一点就达到1PFLOPS,可以说是全球最高水平的运算能力。“如果按照单精度来排名的话,可进入全球前10名”(东京工业大学研究人员)。
但是,TOP500评价必须包括双精度计算。另一方面,NVIDIA公司的GPU从此次才开始正式支持双精度运算,其运算速度大大低于单精度。此次追加系统部分的双精度运算能力的峰值性能为59TFLOPS。
结果,整个系统的双精度运算的峰值性能仅为170TFLOPS。在求解用于TOP500评价的联立线性方程的程序“Linpack”中,有效性能为77.48TFLOPS,在最新排名中位居第29位,未能实现提升。
松冈排名未提升的原因归结为以下两点,(1)因突击工程调整不足;(2)Linpack与此次的系统不匹配。松冈表示,“如果仔细调整,Linpack速度也能达到90TFLOPS左右。但在此次的系统中,Linpack是一个会产生轻微不良后果的应用程序。通过下工夫,多数科学计算都可以单精度运算获得出色结果。实际上,可以说此次通过一些提高性能的措施,获得了位居全球前列的高运算能力”。
另外,NVIDIA公司上市的最新GPU产品方面,用于工作站的产品称为“Tesla C1060”,工作频率为1.296GHz。在此次的Tesla S1070中,虽然采用相同的硬件,但工作频率却达到了1.44GHz,运算性能也稍高。(记者:野泽 哲生)