GPU让桌面型超级计算机不再是梦想(2)

时间:2008-11-22   来源:   网友评论:0   人气: 522 作者:

    据介绍,在使用CUDA后,项目组在静态时序分析上实现了80倍的加速比,全芯片STA从CPU所需要的1小时缩短了用GPU的1分钟,意味着可以实时得到结果,尝试更多设计;在故障仿真上实现了200倍的加速比,让原来CPU一周的工作量缩短到了GPU的一个小时,原来需要用一套集群来模拟,现在只需要一块GPU卡;在电路布局方面也取得了3倍的加速比,从而允许每天可以多做1-2次优化。邓仰东表示,后续还会用CUDA来实现EDA更多流程的并行化。

    Sumit Gupta还介绍了GPU计算在消费电子领域的应用,如为了把一段影片转换成iPod可以播放的格式,原来在普通电脑上可能需要15分钟,而用GPU只需要1分半钟。另外,在照片编辑、人脸识别、电子游戏等方面GPU计算也大有可为。很多原来需要用到集群超级计算机来完成的任务,现在用一台GPU电脑就可以实现了。


T10:NVIDIA第二代CUDA处理器

    CUDA虽然发布只有一年半的时间,但现在已经有很多领域在使用。Nvidia所要做的是要让人们可以在网上找到免费的软件,而且让自身的GPU产品支持CUDA。据Sumit Gupta介绍,NVIDIA T8系列以上Telsa产品都将支持CUDA。截止到目前,CUDA GPU的市场保有量已经达到了8000万颗。

    而在今年的8月份,NVIDIA还将向市场提供其第二代CUDA处理器——T10系列。T10 GPU可谓是当前世界上最大的芯片,拥有14亿个晶体管,共有240个核心,一块这样的GPU卡的浮点运算性能可达到1万亿次每秒(Tflops),而现在一颗四核CPU只有每秒700亿次浮点计算。

 


A3.jpg
A3.jpg 
    跟T8系列相比,T10在性能和显存容量上都增加了一倍,还增加了双精度的支持,从而能更好地加速汽车飞机设计、CFD计算流体动力学以及金融分析等需要高准确度的应用。由于高性能计算应用的数据量往往很大,需要用到大容量内存,所以T10的板载显存容量也从原来的1.5GB提升到了4GB。NVIDIA工程师在逆时偏移测试时发现,在同样配置1.5GB内存时,T10仅比G80提升了1.9倍,而如果把内存加大到4GB,性能会提高到3.5倍。

    Nvidia还推出了两款基于T10的GPU新产品:一款是Telsa S1070 1U机架服务器,共有4个GPU卡,共960个内核,性能达到4万亿次每秒,功耗只有700瓦,而如果要达到相同计算性能,需要一个小服务器集群才能实现,而功耗可能达到几万瓦;另一款产品是Telsa C1060,可以用到普通的PC和工作站中,性能是957Gflops,功耗只有160瓦。
A4.jpg
A4.jpg 

A5.jpg
A5.jpg 
    假设要构建一个具有100万亿次规模的数据中心,如果完全采用基于CPU 的1U服务器,需要用到1429台四核服务器,成本高达310万美元,功耗571KW;而如果采用CPU+GPU的异构模式,则仅需要25台CPU服务器和25台Telsa系统,仅需31万美元,功耗只有27KW。

    据了解,在GPGPU集群中,CPU服务器负责执行顺序型任务,如操作系统和数据库,CPU服务器与CPU服务器之间通过Infiband进行连接通信,GPU服务器则作为“一种协处理器的拓展”,通过PCI-E2.0连到CPU服务器上,承担并行计算任务。由于GPU服务器上没有CPU,所以操作系统的启用需要用到CPU服务器。用户可以根据顺序任务和并行任务的比率,来配备CPU核与GPU核的不同数量。
 
象学C语言一样学习CUDA

    对于高性能并行计算而言,硬件和软件是不可分割的两大支撑。NVIDIA对GPU架构进行了根本性的改变,使其可以用C语言来编程。为了理解CUDA的作用,不妨让我们回到本文开头的那个比方,10个人轮流地向桶中倒水的顺序比较容易控制,而当10个人并行地向桶中倒水时,如何保证效率呢?Sumit Gupta调侃道,“CUDA在GPU多核并行计算中起到的作用就好比是军队里的将军一样,通过它来保证并行高效有序地实现。” 跟CELL、FGPA以及其他GPU相比,CUDA环境支持已经成为NVIDIA GPU计算的一大优势,用户借助CUDA可以更加方便地使用GPU计算。


 

文章评论