目录
1 提升深度学习算力的最新硬件方案
2 深度学习选择GPU-性能指标最新排序
3 UltraLAB深度学习工作站新机型介绍
4 UltraLAB 深度学习工作站基准配置方案2021v2
4.1 GA300i深度学习工作站配置推荐(2块GPU方案,超值型)
4.2 GT410P深度学习工作站配置推荐(最大5块GPU方案,高性能型)
4.3 GX650M深度学习工作站配置推荐(最大6块GPU方案,完美极致型)
最新xeon三代+PCIe 4.0架构-深度学习训练、AI智能、神经元计算基准配置推荐2021v2
最新AMD锐龙Pro+PCIe 4.0架构-深度学习训练、AI智能、神经元计算基准配置推荐2021v3
一.提升深度学习性能的最新硬件
随着深度学习、人工智能、大数据AI分析等应用深入,对图形工作站的性能要求越来越高,深度学习主流框架Pytorch、Tensorflow等,在GPU训练神经网络性能指标---训练吞吐量,如何通过模型更快地运行数据集,需要调用更多GPU并行训练,如何提升深度学习算力的硬件性能,关键硬件如下:
No |
关键硬件 |
主要任务 |
解决方案 |
1 |
硬盘读取速度 |
数据从硬盘读取到内存,并做一些预处理 |
PCIe 4.0 SSD卡 |
2 |
PCIe传输速度 |
内存中的数据通过PCIe总线传输到GPU显存 |
PCIe 4.0 x16接口 |
3 |
CPU频率 |
从内存中取出一批数据,转化为numpy array,并作数据预处理/增强操作,如翻转、平移、颜色变换等。处理完毕后送回内存 |
数据预处理是CPU单核计算,cpu频率至关重要 |
4 |
内存 |
数据从硬盘读取到内存,GPU计算好结果返回到内存 |
内存容量、带宽 |
5 |
GPU卡 |
计算机视觉(CV)、自然语言处理(NLP)、文本到语音 (TTS) 等的 GPU 训练速度 每秒处理样本()的数量 |
单卡的CUDA FP32、Tensor FP16指标越高越好 多卡并行数量越大越好 |
二.深度学习选择GPU-最新性能指标排序
(GPU型号性能对比表,按单精度FP32排序)
No |
型号 |
卡数 |
CUDA核数 |
单精度FP32 Tfops |
张量计算FP16 (Tfops) |
显存带宽GBs |
显存 合计GB |
备注 |
1 |
A6000 |
7块 |
75264 |
280 |
2184 |
768 |
336 |
超越DGX-2 |
2 |
RTX3090 |
7块 |
73472 |
249 |
1995 |
936 |
168 |
超越DGX-2 |
3 |
A6000 |
6块 |
64512 |
240 |
1872 |
768 |
288 |
超越DGX-2 |
4 |
RTX3080 |
8块 |
69632 |
238 |
1904 |
760 |
80 |
超9*2080ti |
5 |
Tesla V100 |
16块 |
81920 |
238 |
1760 |
653 |
192 |
DGX-2 |
6 |
RTX3090 |
6块 |
62976 |
213 |
1710 |
936 |
144 |
接近DGX-2 |
6 |
A6000 |
5块 |
53760 |
200 |
1560 |
768 |
240 |
全能高速 |
7 |
RTX3080 |
6块 |
52224 |
179 |
1428 |
760 |
60 |
超5*3090 |
8 |
RTX3090 |
5块 |
52480 |
178 |
1425 |
936 |
120 |
|
29 |
A5000 |
6块 |
49152 |
166 |
1302 |
768 |
144 |
全能高速 |
9 |
A6000 |
4块 |
43008 |
160 |
1248 |
768 |
192 |
全能高速 |
10 |
RTX3080 |
5块 |
43520 |
149 |
1190 |
760 |
50 |
超9*2080ti |
11 |
RTX3090 |
4块 |
41984 |
142 |
1140 |
936 |
96 |
|
12 |
RTX3070 |
7块 |
41216 |
142 |
1141 |
448 |
56 |
|
13 |
A5000 |
5块 |
40960 |
139 |
1085 |
768 |
120 |
全能高速 |
14 |
RTX2080Ti |
9块 |
39168 |
121 |
990 |
616 |
99 |
|
15 |
RTX3070 |
6块 |
35328 |
122 |
978 |
448 |
48 |
超7块Titan RTX |
16 |
RTX3080 |
4块 |
34816 |
119 |
952 |
760 |
40 |
超8*2080ti |
17 |
Titan RTX |
7块 |
32256 |
114 |
910 |
672 |
168 |
|
18 |
A5000 |
4块 |
32768 |
111 |
868 |
768 |
96 |
全能高速 |
19 |
RTX2080Ti |
8块 |
34816 |
108 |
880 |
616 |
88 |
|
20 |
RTX3090 |
3块 |
41984 |
107 |
855 |
936 |
72 |
|
21 |
RTX3070 |
5块 |
29440 |
102 |
815 |
448 |
40 |
|
22 |
RTX3080 |
3块 |
34816 |
89 |
714 |
760 |
40 |
超4*titanRTX |
23 |
A5000 |
3块 |
24576 |
84 |
651 |
768 |
72 |
全能高速 |
24 |
RTX3070 |
4块 |
23552 |
81 |
652 |
448 |
32 |
|
25 |
A6000 |
2块 |
21504 |
80 |
624 |
768 |
96 |
全能高速 |
26 |
RTX3090 |
2块 |
20992 |
71 |
570 |
936 |
48 |
|
27 |
Titan RTX |
4块 |
18432 |
65 |
520 |
672 |
96 |
|
28 |
RTX3070 |
3块 |
23552 |
61 |
489 |
448 |
24 |
|
29 |
RTX3080 |
2块 |
17408 |
60 |
476 |
760 |
20 |
多用途 |
30 |
A5000 |
2块 |
16384 |
56 |
432 |
768 |
48 |
全能高速 |
31 |
RTX2080Ti |
4块 |
17408 |
54 |
440 |
616 |
44 |
|
32 |
RTX2080s |
4 |
12288 |
44 |
252 |
496 |
32 |
|
33 |
RTX3070 |
2块 |
11776 |
41 |
326 |
448 |
16 |
超3090 |
34 |
A6000 |
1块 |
10752 |
40 |
312 |
768 |
48 |
全能高速 |
35 |
RTX3090 |
1块 |
10496 |
36 |
285 |
936 |
24 |
全能高速 |
36 |
Titan RTX |
2块 |
9216 |
32 |
260 |
672 |
48 |
|
37 |
RTX3080 |
1块 |
8704 |
30 |
238 |
760 |
10 |
科研型 |
38 |
A5000 |
1块 |
8192 |
28 |
217 |
768 |
24 |
全能高速 |
39 |
RTX2080Ti |
2块 |
8704 |
28 |
220 |
616 |
22 |
|
40 |
RTX2080s |
2块 |
3072 |
22 |
126 |
496 |
16 |
|
41 |
RTX3070 |
1块 |
5888 |
20 |
163 |
448 |
8 |
科研型 |
42 |
Titan RTX |
1块 |
4608 |
16 |
130 |
672 |
24 |
|
43 |
TITAN V |
1 |
5120 |
14.90 |
110 |
653 |
12 |
|
44 |
RTX2080Ti |
1块 |
4352 |
13 |
110 |
616 |
11 |
|
|
文章评论