瑞典有限元软件Impetus-afea寻求合作伙伴

amIborat · 发表于 2012-7-24 17:25:41

hoby 发表于 2012-7-24 16:36
其他软件我不是非常清楚其GPU的效率，但是对于我们软件，下图我给出一组数据给大家看看。单单论GPU对于显示 ...

再具体点，

显式算法， AX=B，这个矩阵非常容易解。
这个矩阵实际上是解耦的，或者说A只是一个对角阵。
你只要一行一行的解下去就可以了。

这也是为什么GPU厂商喜欢拿这样的算例说事。这样单存的浮点运算，GPU是有优势的，但是同时也要考虑到GPU的round off error一般跟CPU可能不同，如果是需要迭代的解法，很容易造成CPU能收敛，而GPU不收敛的情况。这也是为什么现在的有名软件并没有大事宣扬GPU的原因。

我说的是实际情况。

hoby · 发表于 2012-7-24 17:50:00

amIborat 发表于 2012-7-24 10:25
再具体点，

显式算法， AX=B，这个矩阵非常容易解。

我们在说GPU优点的同时并没有否认其存在的局限性，每一个新事物的出现从无到有的过程都不可能是完美的，我们只需要把其优点最大化并用来解决实际问题就足够了。GPU对解耦矩阵的求解较CPU来说速度提高几十倍，而我们的动力显式高阶单元算法恰恰大部分计算时间就是用在矩阵求解上的，那GPU技术正好为我所用，这叫说事么？

在CPU工艺技术逐步趋于极限，传统的摩尔定理逐渐失效的今天，HPC如果仅仅靠增加CPU内核的个数途径也很快会走到尽头，GPGPU技术作为对HPC发展的探索，未尝不是提供了一种新思路。

zyx · 发表于 2012-7-24 17:53:24

amIborat 发表于 2012-7-24 17:19
怎么是强词夺理？
因为很多代码都是基于CPU编程语言写的，一般是fortran，
你想把这部分搬到GPU上可不是 ...

你说的这些都没错，但是GPU计算速度终究超过CPU很多是不争的事实。
八年前我们和上海一家公司合作搞基于FPGA的有限元计算，速度在CPU的200倍左右，
但是这个几乎基于硬件的技术很快就落伍了，因为有了软件技术的支持。
后来基于瑞典的Mitrion也做过一些东西，但是CUDA出来之后，基本上又都转来这一块了。

我觉得GPU计算主要的问题是便宜的板子缺少支持双精度的功能，计算精度不够。
支持双精度的板子价钱有点贵，对于大数据量的计算，还不如弄个小集群。
但是无论如何，这个技术的计算速度绝对不该被你怀疑。

amIborat · 发表于 2012-7-24 17:54:32

hoby 发表于 2012-7-24 17:50
我们在说GPU优点的同时并没有否认其存在的局限性，每一个新事物的出现从无到有的过程都不可能是完美的， ...

我不是针对你的软件。

至于你们的GPU支持到底怎么样，我也不关心。

为了提高计算规模和效率，显然是集群机加并行算法更靠谱和有效。

如果我是用户，我比较关心你们的并行能力如何。 8个core都能跑满吗。

8个core跑不过一个GPU，简直没天理了。

zyx · 发表于 2012-7-24 18:23:20

hoby 发表于 2012-7-24 16:36
其他软件我不是非常清楚其GPU的效率，但是对于我们软件，下图我给出一组数据给大家看看。单单论GPU对于显示 ...

这个GPU加速不高啊，最高4倍！老的显卡还是只用PGI的ACC来加速？

hoby · 发表于 2012-7-24 18:43:47

zyx 发表于 2012-7-24 11:23
这个GPU加速不高啊，最高4倍！老的显卡还是只用PGI的ACC来加速？

有限元计算分很多部分，目前来说只有位移，应力应变求解部分是利用GPU来计算的，其他的比如耗时的接触计算部分目前还没有移植到GPU。单论矩阵的计算GPU是要比CPU要快很多，但是作为一个系统来说，总体的效率提高就没有那么高了。

email · 发表于 2012-7-24 21:47:30

zyx 发表于 2012-7-24 18:23
这个GPU加速不高啊，最高4倍！老的显卡还是只用PGI的ACC来加速？

目前除了一些研究机构中的专门为GPU架构编写的程序，应该还没有完全基于GPU的商业计算软件，所以这也是一个逐步发展的过程，但大多数主流的公司都已经瞄准了这个方向。

amIborat · 发表于 2012-7-25 10:23:20

zyx 发表于 2012-7-24 18:23
这个GPU加速不高啊，最高4倍！老的显卡还是只用PGI的ACC来加速？

这已经是很不错的成绩了。
其他已经有的软件，GPU跟CPU一样的速度，也不是没可能。

bass · 发表于 2012-7-25 10:53:05

隐式程序，特别是模型中含接触非线性的情况下，用GPU效率不高。隐式线性模型和显式程序效率确实比较高。

zyx · 发表于 2012-7-25 14:07:43

amIborat 发表于 2012-7-25 10:23
这已经是很不错的成绩了。
其他已经有的软件，GPU跟CPU一样的速度，也不是没可能。 ...

折腾GPU，加速只有2-3倍，还不如openmp呢，没有性价比。毕竟现在电脑都是多核的，但是能跑GPU的显卡还不是很普及。

hoby · 发表于 2012-7-25 17:56:03

zyx 发表于 2012-7-25 07:07
折腾GPU，加速只有2-3倍，还不如openmp呢，没有性价比。毕竟现在电脑都是多核的，但是能跑GPU的显卡还不 ...

应该说GPU技术才刚刚起步，后续的发展空间还是很大的。当时在考虑用哪种加速方法的时候，SMP、MPP等都是有考虑的，但从代码移植，维护以及技术的前景等多方面综合因素出发，最终还是选择了SMP＋GPU的方案。

对于软件本身而言，目前只有一部分移植到GPU上了，加之SMP也在进一步开发之中，因此在速度方面的提升空间还是很大的。不过目前对于常规的算例，计算时间都能控制在几个小时之内完成。

zyx · 发表于 2012-7-26 00:03:56

hoby 发表于 2012-7-25 17:56
应该说GPU技术才刚刚起步，后续的发展空间还是很大的。当时在考虑用哪种加速方法的时候，SMP、MPP等都是 ...

这的确是个劳心劳力的艰苦工作，祝愿你们能够有好的效益！

hoop247 · 发表于 2012-8-9 10:42:51

LZ我顶你！这个领域以后要更细分，小软件必须要有自己的立足之地，要做别人之所不能。做好推广，用学术界和学生包围工业界的思路，假以时日必成功！期待！！

hoby · 发表于 2012-8-9 17:35:49

hoop247 发表于 2012-8-9 03:42
LZ我顶你！这个领域以后要更细分，小软件必须要有自己的立足之地，要做别人之所不能。做好推广，用学术界和 ...

谢谢，小公司没法做到摊子一下子铺很大，得力从解决专业问题出发，先做到精再到广。

hoby · 发表于 2012-8-14 19:27:26

zyx 发表于 2012-7-25 07:07
折腾GPU，加速只有2-3倍，还不如openmp呢，没有性价比。毕竟现在电脑都是多核的，但是能跑GPU的显卡还不 ...

目前能够参与数值计算的显卡有Nvida的Tesla系列T2070, 2075, 价格来说内存6G的话在2k多美金左右，硬件投入应该不算太高。

luan_ma · 发表于 2012-8-24 10:59:53

个人觉得DYNA在体网格的大变形上，能力还是很强的，当然网格太粗那没办法。
如果要和DYNA对比优势，其实很简单，拿一套变形大的案例算一下，
比如说H型钢连轧（15道次），如果谁能方便做出来，谁就牛。
关于GPU加速，其实有几款都已经发布了，包括ANSYS的MECANICAL，
成熟度都不敢恭维，不少开源软件也可以GPU加速，这是个方向，
但是吹概念比较多，实际应用的好的还是少。

账号		自动登录	找回密码
密码			注册

账号		自动登录	找回密码
密码			立即注册

[其他] 瑞典有限元软件Impetus-afea寻求合作伙伴