电磁仿真(HFSS、CST、FEKO)时域频域台式集群配置推荐2018

时间:2018-05-04   来源:   网友评论:0   人气: 160 作者:

目录
1.电磁仿真计算特点与硬件配资分析
2.电磁仿真计算绝配~UltraLAB工作站介绍
3.电磁仿真计算硬件配置(单机与集群)推荐


一.电磁仿真计算特点与硬件配置分析

电磁场仿真软件广泛应用于无线和有线通信、计算机、卫星、雷达、半导体和微波集成电路、航空航天等领域,从毫米波电路、射频电路封装设计验证,到混合集成电路、PCB板、无源板级器件、RFIC/MMIC设计,天线设计,微波腔体、衰减器、微波转接头、波导录波器等设计等

pic1-cem-map-suite-7-0-FEKO.png


1.1 电磁仿真算法分类、计算特点

计算电磁学(CEM)方法大致可分为2类:精确算法和高频近似方法。
(1)全波精确计算法
  包括差分法(FDTD,FDFD)、有限元(FEM)、矩量法(MoM)以及基于矩量法的快速算法(如快速多极子FMM和多层快速多极子MLFMA)等,其中,在解决电大目标电磁问题中最有效的方法为多层快速多极子方法。

(2)高频近似方法
 一般可归作2类:一类基于射线光学,包括几何光学(GO)、几何绕射理论(GTD)以及在GTD 基础上发展起来的一致性绕射理论(UTD)等;另一类基于波前光学,包括物理光学(PO)、物理绕射理论(PTD)、等效电磁流方法(MEC)以及增量长度绕射系数法(ILDC)等
 
pic2-cem-time-frequency.png

算法计算特点汇总如下

NO

关键项

时域算法

频域算法

1

主要算法

时域有限差分

FDTD

时域有限积分

FIT

有限元

FEM

矩量法

MOM

2

典型软件

EMPIRE XPU

XFDTD

EMPro

CST

HFSS

EMPro

JMAG

FLU

FEKO

Momentum

Sonnet

3

计算特点

线性加速比高、高度多线程,

支持多核CPU

支持大型GPU

内存要求不高

回写很少

多线程,线性加速有限

支持多核CPU并行求解

内存要求高

回写有

 


小结
1.时域算法,属于显式算法,传统的CPU多核加速比好,核数越多计算越快,此外,并行度高,支持GPU加速计算,注意大部分求解器对GPU要求是双精度计算为主,也就是说需要用双精度性能高的GPU卡
2 频域算法,属于隐式算法,支持多核并行计算,但核数并行计算有限,不支持GPU计算,提升性能的手段,就是提升CPU的频率,足够大的内存,值得注意当内存非常大的时候(超过192GB),硬盘io性能非常关键

1.2 对并行计算求解过程分析
如何配置CPU要根据求解过程和算法特点,尤其要了解时域、频域两大算法特点紧密结合,这样才能更高效更合理,从并行求解流程图看,循环计算过程是单核和多核交叉过程
pic3-solver-proc.png

上图可以看出,CPU选型非常重要,CPU睿频足够高,大幅缩短【阶段1】求解时间,和整机足够核数+高频运行,大幅缩短【阶段2】的求解器解算时间
常规工作站卖家,提供的机器往往多核忽视了睿频的重要性,整个计算过程效率非常低,

因此 硬件配置注意:
1.如果是时域算法为主,例如 FDTD、FIT求解器,由于并行度高,工作站配置尽量多核,可显著提升求解速度,同时注意阶段1睿频高的处理器更快,如果是以GPU计算为主,可以配置CPU频率高,核数少的,这样整个过程显著提升
2.如果是隐式算法为主,例如 FEM,MOM求解器,由于并行度有限,一定要睿频尽可能高,同时保证足够的核数的并行,这样整个求解过程无死角瓶颈
3.如果是多种算法并用,CPU要足够核数与高睿频之间选择一个兼顾的规格,三种应用(时域算法、频域算法、混合算法)都均能确保工作站硬件计算性能最大化


考虑到上述计算特点,CPU的选择对整个求解过程极其重要,下面是最新上市的intel Xeon Schalable(可扩展)处理器多种规格,UltraLAB选型分析:
pic4-CPU-01A.png

pic5-CPU-01B.png

1.3 CEM求解规模与硬件配置推荐
a)基于时域算法~UltraLAB硬件配置参考(CPU类)

NO

分类

规模划分

核数

全核频率

睿频

内存

并行存储

1

小规模 

<50倍波长

14

4.6GHz

4.6GHz

32GB

 

18

4.5GHz

4.5GHz

64GB

 

2

中等规模 

50~100倍波长

36

3.1GHz

3.7GHz

64GB

 

40

3.1GHz

3.7GHz

96GB

 

3

大规模 

100~200倍波长

48

3.5GHz

3.7GHz

96GB

 

56

3.3GHz

3.8GHz

192GB

13*4TB

4

超大规模

>200倍波长

96

2.8GHz

3.3GHz

512GB

13*4TB


b)基于频域算法~UltraLAB硬件配置参考

NO

分类

规模划分

核数

全核频率

睿频

内存

并行存储

1 

小规模

<20万网格(</100万未知量)

14核 

4.6GHz

4.6GHz

64GB

 

 

20~80万网格(100~400万未知量)

18核 

4.5GHz

4.5GHz

96GB

 

 

2

中等规模

80~200万网格(400~1000万未知量)

24

4GHz

4.2GHz

96GB

 

 

200~500万网格

36

3.7GHz

3.7GHz

192GB

8*4TB

(1000~2500万未知量)

3

大规模

500~1000万网格(2500~5000万未知量)

48

3.5GHz

3.7GHz

256GB

10*4TB

4

超大规模

1000~2000万网格 (5000~1亿未知量)

56

3.3GHz

3.8GHz

384GB

13*4TB

5

超大规模

>2000万网格(>1亿个未知量)

集群18*6

=108

4.4GHz

4.4GHz

64GB

并行存储

 

c)基于超大规模时域算法求解GPU选型

pic7-CST2018-gpubench.jpg

如果以GPU求解为为主,可选的GPU卡参考下表

No

型号

显存(MB)

CUDA

显存带宽 (GBs)

浮点计算指标 TFlops -单精度

浮点计算指标 TFlops -双精度

散热

1

Tesla V100

16GB HBM2

5120

900

14.90

7.45

服务器

2

Tesla P100

16GB HBM2

3584

721

9.52

4.76

服务器

3

Tesla P100

12GB HBM2

3584

721

9.52

4.73

服务器

4

Quadro GV100

32GB

5120

870

14.85

7.42

主动式

5

Quadro GP100

16GB HBM2

3584

717

10.25

5.13

主动式

6

Quadro K6000

12GB

2880

288

5.18

1.73

主动式

7

Quadro K5200

8GB

2304

192

3.07

1.03

主动式



 

文章评论