地表最强深度学习训练平台~UltraLAB 图灵工作站

时间:2017-04-17   来源:   网友评论:0   人气: 339 作者:

目录
1 深度学习训练平台与理想计算架构
2 深度神经网络计算特点与硬件配置分析
3 UltraLAB GXM图灵工作站与配置推荐

(一)深度学习训练平台现状与完美计算架构

深度神经网络(DNN)计算数据模型繁多,结构复杂,主流模型含几十个隐含层,每层都在上千上万级的神经元,整个网络更多,其计算量巨大,

市场上用于深度学习的训练计算机大致情况,
(1)服务器/工作站(支持2、4、8块GPU架构):普遍存在噪音大,无法放置于办公环境,必须放到专门的机房,维护成本高,另外数据存储带宽、延迟、容量也不尽如意
(2)分布式集群架构:性能强大,但是开发成本太高,是大多数科研单位无法承受

那么问题来了,市场上是否有一个理想产品,弥补上述缺陷,让更多单位都能用的起~人工智能AI超级异构计算机

GX480M-02D1.jpg


UltraLAB GXM图灵计算工作站是西安坤隆计算机公司2017年上半年推出的、目前市场上一款集GPU超算、海量存储于一体、基于办公静音环境、应用于深度学习(机器学习、人工智能)的AI超级计算机系统。

和市面上深度学习计算机系统相比,显著优势:

  • 完全处于办公环境(静音级)、不在被噪音所困扰
  • 配备基于PCIe总线的海量高速并行存储(最大容量180TB),延迟低,支持最大15个并行读,硬盘io性能大幅提升,性能和管理远超传统的DAS/NAS存储系统
  • 配备超级强大的计算能力,最大10个GPU卡,3.82万计算核,单精度浮点120Tflops
  • 不需要专门的机房,不占过多空间,维护成本极低
  • 不需要作业调度系统,管理难度大幅降低



(二)深度神经网络计算特点与硬件配置分析

市场上大部分GPU计算机(服务器/工作站),重点都放在GPU卡数量上,似乎只要配上足够GPU卡,就可以了,实际情况是,机器硬件配置还需要整体均衡,只有这样这台机器性能才能更好的发挥
 
610m框架图副本3A.jpg

上述图示,深度神经网络计算大致流程,下面通过深度神经网络计算环节,分析核心硬件配置理想要求

1.数据存储要求
做深度学习首先需要一个好的存储系统,将历史资料保存起来
主要任务:历史数据存储,如:文字、图像、声音、视频、数据库等。。。
性能要求:
a.数据容量:提供足够高的存储能力,
b.读写带宽:多硬盘并行读写架构提高数据读写带宽
c.接口:高带宽,同时延迟低

传统解决方式:专门的存储服务器,借助万兆端口访问
缺点:带宽不高,对深度学习的数据读取过程时间长(延迟大,两台机器之间数据交换),成本高

UltraLAB解决方案:将并行存储直接通过PCIe接口,提供最大16个硬盘的并行读取,数据量大并行读取要求高,无论是总线还是硬盘并行带宽,都得到加大提升,满足海量数据密集io请求和计算需要

2.CPU要求
主要任务:
(1)数据从存储系统调入到内存的解压计算
(2)GPU计算前的数据预处理
(3)运行在代码中写入并读取变量执行指令,如函数调用启动在GPU上函数调用,创建小批量数据启动到GPU的数据传输
(4)GPU多卡并行计算前,每个核负责一块卡的所需要的数据并行切分处理和控制
(5)求解后数据保存前的压缩计算
上述每一类操作基本都是单核计算模式, 如果要加速这些过程,唯有提升CPU频率

传统解决方式:CPU规格很随意,核数和频率没有任何要求
UltraLAB合理推荐:
a.CPU频率:越高越好
b.CPU三级缓存:越大越好
c.CPU核数:比GPU卡数量大(原则:1核对应1卡,核数要有至少2个冗余)

3.GPU要求
主要任务:承担深度学习的数据建模计算、运行复杂算法
传统架构:提供1~8块GPU
UltraLAB合理推荐:
a.数据带宽:PCIe8x 3.0以上
b.数据容量:显存大小也很关键
c.计算匹配:CPU核-GPU卡 1对1
d.GPU卡加速:多卡提升并行处理效率

4 内存要求
主要任务:存放预处理的数据,待GPU读取处理,中间结果存放
UltraLAB合理推荐:
a.数据带宽最大化:单Xeon E5v4 4通道内存,双Xeon E5v4 8通道内存,内存带宽最大化
b.内存容量合理化:大于GPU总显存


 

文章评论