Xeon Phi真身首曝,Intel戳穿百倍性能提升假象
经过长达八年各类相干研究,Intel终于正式推出了MIC众核架构的Xeon Phi协处理器,为高性能计算带来了一股新鲜权势。
Xeon Phi协处理器在很大程度上延续了流产的显卡并行计算开发项目Larrabee的技术,外部造型看似显卡,其实是和Tesla类似的专用并行计算卡,其架构采 取次序、双发射x86,支持64位数据运算,每个核心支支持最多四个线程,最多61个核心、244个线程,并且每个核心都搭配一个512-bit SIMD矢量引擎。
当然了,这里的“核心”跟Tesla里边的CUDA核心是没有直接可比性的,它们分别来自CPU、GPU的世界。
前后做了这么多的介绍,Xeon Phi毕竟是个什么样子呢?田纳西州大学的田纳西高性能计算中间(TACC)正在他们的新超级计算机“Stampede”(惊跑)里安装Xeon Phi,也让我们得以一睹其真容:
不明说的话必然会认为这是块标准的显卡吧?Tesla其实也是这个样子,标准的双插槽架构PCI-E x16扩展卡,并且是因为专用于并行计算的,都没有视频输出接口(AMD的还有)。
Xeon Phi也分主动散热、被动散热两种版本,这里用的是被动散热的,外壳下边是多量厚重的散热片和热管,尾部则能看到一个6pin和一个8pin供电接口,最大供电功率能300W。
只可惜人家不让拆,看不到里边的样子。
至于实际性能如何,很可能如今哪儿都不具备测试条件,毕竟结果这玩意儿因为架构的缘故请求操纵体系、面向对象软件都得在一定程度上从头编写和优化,Intel也几回再三夸大优化的首要性。
Intel也没有一味夸大加快计算性能,而是首先澄清了一个误会。Intel拿出了一段Fortran代码,先运行未优化的单线程代码,然后优化并以Xeon Phi运行,机能差别达到了惊人的300倍。
NVIDIA Tesla鼓吹的并行性能差不多就是如次而已,让加快计算的成果和单线程计算结果对比,几十甚至几百倍的提升就轻松得来。
Intel则证了然其谬误:在双路Xeon E5上从头运行相同的代码,Xeon Phi只快了大约两倍罢了。也就是说,若是代码本身就针对多核心处理器做过优化,加快计算的真实结果会小得多。
在另一个C++的例子中,109倍的性能提升被证实实际只有2-2.5倍。
随后,Intel显现了Xeon Phi协处理器计算计算所带来的真正性能提升,经由过程Intel MKL理论测试获得的幅度为最多2.2-2.9倍,实际应用中则广泛只有最多1.7-2.53倍,只有金融办事方面取得了10倍以上的跳跃(布莱克斯 克尔斯期权订价模型和蒙特卡罗算法)。
Intel还请来了CAE软件商Altair的一名代表,让他证实把代码移植到Xeon Phi平台上是多么的简单,并证实溃散测试模仿之类的应用一般可以带来2.5倍的性能提升。