NVIDIA GeForce GTX 280测试报告(3)

时间:2008-12-17   来源:pcinLife   网友评论:0   人气: 974 作者:


 

GT200两种形态——图形处理架构与并行运算架构

根据任务的不同,Tesla会被配置为图形并行架构(GPA)和并行运算架构(PCA)两种形态,NVIDIA在介绍GT200架构的时候较以往更加强调这点。

在GPA模式下,你可以看到在上面的这个逻辑模块图中的最顶端不同的shader thread分发逻辑单元以及setup、光栅化单元;SPA包含有10个TPC,每个TPC内有三个SM,每个SM内有8个SP,共计有240个SP;位于最下方的模块分别为ROP和内存界面单元。

在PCA模式下,GTX280的形态最上端是一个线程调度器(thread scheduler),往下则是TPC、纹理高速缓存(texture cache)和内存界面单元(memory interface unit)。图中的atomic(原子操作)反映出GT200的PCA具备执行atomic read-modify-write至内存的操作,有了atomic后,就能实现硬粒化的存取内存位置、提升并行化效果以及并行数据结构管理。

NVIDIA PCA的两个主要精神要素是:SIMT和shared memory。

前者可以让开发人员无须考虑GPU本质上是SIMD这个特性,完全可以把编程的硬件对象作为一个标量处理器来设计即可,在性能优化上主要专注于程序线程的拆分,就能显著提高并行化效果并且降低程序编写难度。

而shared memory是SM内的一块16KB大小的存储器,存取延迟非常低(shared memory有16个bank,在每个thread访问不同bank的时候,存取速度是和寄存器一样的),主要作用是存放并发线程执行的数据,例如作为图形输入数据缓存或者是并行运算的时候共享数据。

比较遗憾的是,NVIDIA的GTX 280媒体资料中的TPC架构图存在一些不够严谨的地方,例如把shared memory标示为local memory,而在CUDA的文档中,local memory和shared memory是两回事情,local memory实际上是指显卡内存,而不是个GPU片上的shared memory,我们下面会采用根据IEEE文档结合GT200媒体资料而绘制的更准确TPC架构图。


 

文章评论