我的生活随笔

【评测】Xeonw9-3495X56核工作站性能优化与BenchMark解读

  关于Intel最新一代高端工作站CPU和平台,我已经在《单路为王?Intel Xeon W-3400、2400工作站平台预览》和《Dell Precision 7960 Tower工作站:模块化的传承与提升》两篇中有过介绍。

  最近这几年,我写过显卡、SSD存储方面的一些评测,但确实好久没有全面系统地做过CPU性能测试。

  我在日常工作中也会遇到一些性能分析的任务,但主要是帮助客户把工作站等系统在实际应用中发挥出正常水平,而不只是为了跑分。

  比如《神油补丁测试:老版SOLIDWORKS + RTX A/T系列显卡性能问题解决》,就是出于解决问题而搞出来的。

  -了解最新一代Xeon W-3400(4代)性能水平,对比之前的2代Xeon Scalable x2xx平台双CPU工作站,在各种计算应用中性能提升如何?

  - 结合各行业领域特点,分析多核CPU性能扩展瓶颈——在一些应用中使用多进程+多线程的意义。

  作为Intel Xeon w-3400系列中的顶级型号,w9-3495X处理器拥有56个物理核心,112个框框(逻辑线程)。

  后续还想给大家分享更多行业应用测试的结果,有些会用到多GPU,比如4K/8K视频编辑调色等。

  细心的朋友可能发现了,我搭配测试的显卡并不是最新、最高端的型号,确实我手头没有RTX 6000 Ada、RTX A6000那些。

  不过,我也要感谢能暂时拥有的这些配置,毕竟本次测试的重点是对比CPU性能,更确切地说——主要是多核性能。

  如上表,2颗Xeon Gold 6242 CPU一共32核,TDP功耗加在一起是300W,其性能低于56核、350W的Xeon w9-3495X是正常的——在大家接下来看测试结果之前我有必要说明这一点。

  另外,我简单依照核心数、基础频率的比例关系,假定Xeon 6242的性能水平为100%,算出一个纸面上的6258R理想多核性能比率168%(28核相对16核)。

  但大家也知道,在不少的工作站应用中,多线程性能并不会随着CPU核心的增加而完全线性提升,所以这偏高的估值,也只是作为一个条件有限情况下的参考而已。

  受限于手头的硬件,我在Precision 7960工作站上配置了4通道共64GB DDR5-4800内存(满配支持8通道);于是我在上一代Precision 7920上使用了8条8GB DDR4内存,双路时每颗CPU对应4个DIMM通道;而在单Xeon Gold 6242 CPU时,这8条内存我是按Dell工作站手册的建议来安装的(如下图,保持64GB总容量不变)。

  注:理论上看可能因为没有达到最高配置而影响性能发挥,但实际情况中许多客户也不是各方面都达到最高满配的,所以一样有参考价值。

  M.2 NVMe SSD我在新老机型上使用的都是1TB,型号虽有不同——但即使配置相同的新型号固态盘性能也不一样。

  因为PCIe 4.0 SSD在新平台能充分发挥,而老机型上只能运行在PCIe 3.0带宽下。

  当我们在Precison 7920 Tower工作站上配置单CPU+8条内存时,手册里会建议先插满6个通道,然后再加2条(图片点开后可放大查看,以下同)

  如上图,从2007年开始推出的LGA-3647 Xeon每颗CPU是6通道内存控制器,在插8条内存时BIOS里也能显示为6通道(但此时并不是完全对称的)。

  本文使用的测试软件SPECworkstation 3.1,几乎是工作站领域具备权威性的综合BenchMark唯一选择。

  我已经有20多年使用SPECviewperf(针对工作站显卡应用)的经验——最近两次关于该测试工具的更新讨论如下:

  我在《Optane SSD 900P评测(2):比拼4x闪存NVMe RAID0》曾经用于测试工作站的存储子系统,并给出过这样的评价——“其综合成绩受磁盘I/O子系统性能影响较大,因此看望站公布的测试结果,有点像拿SSD来辅助“跑分”的比赛,看谁的盘快、看谁盘配的更多:)”

  所以,我这次会排除其中的图形(源自SPECviewperf)和SSD测试项目,只对比CPU。

  如上图,在SPECworkstation 3.1测试中涵盖了媒体和娱乐、产品研发、生命科学、能源、金融服务等行业的应用,具体的CPU测试负载项目我也用红圈标出来了。

  上面是一份SPECworkstation测试结果的片段截图,本文主要挑每个行业领域中的CPU测试项目(CPU综合得分、具体单项得分)进行对比。

  我想说接下来这个表可能才是本文的核心,甚至我为此花的精力比后面那些性能数据要多,不知您是否认同?

  而我在这里加入自己花时间研究、分析的重点,是每一项测试的CPU负载类型:单线程、多线程,还是多线程+多进程。

  7zip压缩看上去用到了多线程,实际效果请看后面对比;Python测试中确实包含一个多线程的项目;

  - 媒体和娱乐(DCC)、金融服务计算,还有能源行业中的Convolution(卷积向量化)测试,都是单一进程多线程的任务。

  按照我的经验,图像渲染、视频编码这些应用,相对适合发挥出超多核CPU的性能(但不是每一次“拍脑袋”都会准?)所以才要看实际测试结果。

  -产品研发(CAE)、生命科学,以及能源行业的大多数测试项目,在SPECworkstation基准测试中都是采用多进程+多线程来运行的。

  默认设置为每个应用进程调用16线程,相当于超过8核16线程的CPU,应该就会并行跑多个进程来发挥处理器的潜力。

  正是因为部分应用的特点,在单一进程调用线程数过多时效率不够好,所以就借助高性能计算的思想,把任务拆分运行。

  以2颗16核的Xeon 6242 CPU为例,如果能优化地把每2个进程分别运行在一颗物理CPU上,应该还能规避NUMA(非一致性内存访问)的性能影响。

  制造业中的CAD(计算机辅助设计),其中许多三维图形操作都是单线程,总体上只能发挥出1-2个CPU核心;而产品研发(CAE)才是多核CPU的用武之地,比如本次测试中包含的结构有限元分析、流体力学计算。

  SPECworkstation的CPU测试集里面多为开源软件,或者免费公开的BenchMark子项目;相比之下,ANSYS(含Fluent)、Altair、MSC等几大商业CAE软件巨头,他们对新硬件(包括超多核CPU)的优化和发挥通常更好一些,所以本文只是提gòng一个参考。

  在此我也列举几家常用的地震资料解释平台(商业软件):主要有哈里伯顿(Halliburton)的LandMark,斯伦贝谢(Schlumberger)的GeoFrame,还有一部分在用帕拉代姆(Paradigm)的Epos等。

  -余下五大行业,单/双Xeon 6242 CPU的差别都比较明显,有些领域2颗CPU比1颗都接近翻倍了;只是媒体和娱乐(DCC)反而差距相对小,估计与具体测试项目有关。

  -Xeon w9-3495X 56核相对于2颗16核的提升,除了生命科学一项的综合得分有点不够理想(待进一步分析),另外几个行业都达到了1.84-1.99倍的水平,大家还记得我在前面列出的那个168%的Xeon 6258R理想值(按核心数线性估算)吗?

  以上综合得分,对硬件制造商、发烧友和分析师是有用的;但具体到运行某一种或几种软件的工作站用户来说,每个应用软件的测试表现,才有更多的参考价值。

  在媒体和娱乐的3项测试中,说实话Blender渲染让我感觉有点意外?单颗Xeon 6242就能达到双CPU性能的89%,而56核的Xeon w9-3495X也只是跑到了2颗16核的1.33倍。

  我之前在《让45W TDP CPU稳跑75W的秘密:Blender渲染测试(含Optix去噪点)》等2篇评测中玩过Blender,带着这次的疑问,我想后续进一步用较新版本软件实际测试再来次评估,看该软件是否对较多的CPU核心数支持不够好?

  CAE领域的3项测试表现也有些不同,Calculix和WPCcfd从单CPU到双CPU的提升幅度都很理想;但rodiniaCFD流体力学测试则有些相反——配2颗CPU在这里显得不划算,而单56核Xeon w9-3495X却能跑到2颗16核CPU性能的3.43倍。

  生命科学部分,lammps和rodiniaLifeSci测试看上去都挺理想;只有namd分子动力学这一项,Xeon w9-3495X在我的测试中表现有些不正常?这应该也是导致该CPU在前面的生命科学总分不佳的原因。

  但我去看了Intel提gòng的BenchMark参考结果(在本文结尾处有列出),同一部分测试的情况不像我这样。

  金融服务计算部分,包括Monte Carlo(蒙特卡洛)概率模拟、Black-Scholes期权定价模型和Binomial二项式期权定价模型。

  尽管我是每项测试运行3遍取平均值,还是遇到了个别的随机性误差——有的测试单CPU性能只跑到了双CPU不到一半的水平。

  前面我提到过,通用操作部分由于主要是单线程测试,所以只是包含有一项Multithreaded Matrix的Python 3.6测试能反映出核心数的不同。

  从表面上看7zip在压缩时也能把CPU跑满,但却没有反映到SPECworkstation这项具体测试的得分上,可能在执行或者结果统计上还有处理不周之处?

  octe科学计算,Xeon w9-3495X的表现不够好,测试中遇到少数比例的这种情况是正常的。

  由于SPECworkstation需要同时照顾AMD显卡,所以采用了OpenCL而不是CUDA,这样与N卡的实际工作环境应该有些不同。

  不过也算给大家一点参考吧:GPU计算系统搭配的CPU主频最好也不要太低(注:不见得适用于所有情况)。

  由于我手头没有2颗28核的Xeon Gold 6258R,所以给大家出示下Intel的宣传数据——总体上看与我的测试结果基本相符,这次也算是做了个验证吧。

  如上图,SPECworkstation基准测试解释了我在以前文章中提出的一个问题,也反映出的一个优化要点:在有些行业的一部分应用软件,需要用到多进程并发运行,才能比较高效地发挥出超多核CPU工作站的效率。

  Xeon W-3400的价值并不只在性能方面,包括PCIe 5.0扩展性等,都是超出上一代双路工作站的。

  本轮测试始于CPU,而现代工作站又不止是CPU的舞台,所以后续我会结合具体应用加入关于GPU的讨论。

赞(0)
未经允许不得转载:我的生活随笔 » 【评测】Xeonw9-3495X56核工作站性能优化与BenchMark解读

我的生活随笔我的生活随笔