NVIDIA GTC 2018:Quadro GV100, NVSwitch, DGX-2 和RTX
首页 > 观测 > 数码科技    作者:剧毒术士马文   2018年3月30日 0:55 星期五   18条评论    
时间:2018-3-30 0:55  

本文地址:http://www.moepc.net/?post=4668

很早就在说GTC不会发新一代游戏卡,不知为何有那么多国内(外)媒体起哄。


NVIDIA在GTC 2018上发布了不少东西,但基本都是向着金主专业市场去的。主角当然是当前在高性能计算市场闪耀着的idol - GV100 GPU。


Quadro GV100


img005.jpg


随着Quadro GV100的发布,NVIDIA也算把Volta带进了自家的3大产品线:Quadro、Tesla和Titan。


对比一下规格会发现,Quadro GV100的GPU规格和Titan V、Tesla V100相同,只是Titan V阉割了一组HBM2 IMC和ROP,导致带宽和像素填充能力更弱。


Quadro GV100配了32GB的HBM2(ECC),和GTC 2018之后的Tesla V100显存容量一样,此前Tesla V100只有16GB显存。


QQ截图20180409234604.png


作为专业图形市场品牌,Quadro GV100保留了完整的各项功能,1/2双精度,ECC显存。Tensor Core也没阉割,因为NVIDIA发布了新的RTX光线追踪技术,支持的首款显卡正是Quadro GV100,要用Tensor Core,结合AI来达成实时的光线追踪。


img006.jpg



Quadro GV100售价8999美元,比上代Quadro P100的4999翻了将近一番。


NVSwitch


为了解决PCIe 3.0在带宽等各项性能上的不足,NVIDIA开发了自家用的NVLink。每个GPU搭配4-6条NVLink,这些NVLink可以组合在一起,为2个GPU之间的通信提供更高带宽;也可以给更多的GPU提供直接互联,这样的话每个GPU分到的带宽就会更少。


img003.jpg


实际情况中,单个NVLink 集群最多只能到8个GPU,称之为Hybrid Mesh Cube configuration,相当于一个NUMA配置(类似EPYC)。规模再往上就只能换用不同互联,使用多套系统了,同时也会失去NVLink带来的延迟、内存共享等好处。在GPU里放下更多的NVLink也不实际。


所以NVIDIA采取了下一步:生产一颗NVLink Switch 交换芯片,称之为“NVSwitch”。


img009.jpg


NVSwitch可以拓展出更大规模的GPU集群(目前的目标是翻倍到16个GPU),1个NVSwitch就有18个全带宽端口,完全连接的crossbar,这相当于GV100的3倍,双向带宽达到900GB/s。


再进一步地说,NVIDIA想移除NVLink的通道数所带来的限制,通过配置多颗NVSwitch交换芯片,打造任何形式的GPU拓扑结构。


img008.jpg


NVSwitch是NV“不惜一切代价”来打造的,这颗芯片本身就已经有20亿左右的晶体管,比入门级GP108 GPU还要多,作为一颗交换芯片可以说非常惊人。


不过NVIDIA虽然谈到了带宽数字,但没有提延迟。不用说,加了NVSwitch肯定会增加延迟,但不知道到底影响有多大。NVSwitch的功耗和价格也没公布。


DGX-2:Tesla V100 + NVSwitch


有了NVSwitch,就能做出规模更大的系统,NVIDIA在GTC 2018上也顺势推出了DGX-1的升级版:DGX-2,内置16块Tesla V100计算卡,搭配双路Intel Xeon Platinum。


img007.jpg


在整套系统里,NVIDIA放进了12块NVSwitch,为每个GPU提供最大带宽,GPU间互联带宽达到300GB/s,为PCIe的12倍。


img004.jpg


这样连接之后,16个GPU可以视作一个统一的内存空间(当然GPU之间通信有延迟和带宽的降低),再加上Tesla V100翻倍的显存【16x 32=512GB的HBM2!】,就能运行原来8个GPU集群无法直接用显存运行的负载:比如FAIRSeq,在DGX-2上只需要2天,较DGX-1快10倍。


本身16块V100的性能就很可观,FP32性能达到240TFLOPS,FP64为一半的120TFLOPS,Tensor Core则可达成1.92PFLOPS的深度学习性能。


作为平台的则是Intel的双路Xeon Platinum,型号未知,内存最大1.5TB【单路768GB=非M型号】,存储为30TB NVMe SSD,可升级至60TB。


互联方面,DGX-2支持8条Infiniband EDR或者100GbE。DGX-2的系统功耗为10KW,DGX-1为3.5KW。


img011.jpg


相较DGX-1的14.9万美元定价,售价39.9万美元的DGX-2虽然定位更高,却可以说更划算。CPU性能更强,翻倍的GPU数量,4倍HBM2显存,3倍DDR4内存容量,更不用说默认配置的NVMe SSD总容量翻了15倍.....


Tesla V100显存翻倍


GTC 2018上,NVIDIA还宣布将Tesla V100系列(包括SMX2版本和PCIe版本)的显存从16GB翻倍至32GB,原本Tesla V100就是4块4层堆叠的HBM2(4x 4-Hi stack),现在翻倍说明换用了8-Hi的HBM2,单颗容量达到8GB,这应该是HBM2厂商产能和良率不断提升的结果。【望向...VegaFE】




只有容量翻倍,显存频率和带宽都没有变化。




本文地址:http://www.moepc.net/?post=4668

部分NVSwitch/DGX-2信息来自于:https://www.anandtech.com/show/12581/nvidia-develops-nvlink-switch-nvswitch-18-ports-for-dgx2-more

MOEPC.NET编辑/编译,转载请保留出处。

二维码加载中...
本文作者:剧毒术士马文      文章标题: NVIDIA GTC 2018:Quadro GV100, NVSwitch, DGX-2 和RTX
本文地址:http://www.moepc.net/?post=4668
声明:若无注明,本文皆为“MoePC.net (原My艦これ/Mykancolle)”原创,转载请保留文章出处。

WRITTEN BY

avatar
游客Safari 604.1iPad OS 11_2_5 like Mac OS X) AppleWebKit2018-04-01 16:08
https://www.cnbeta.com/articles/tech/712495.htm
amd新卡,好像不得了
剧毒术士马文2018-04-01 17:56
@游客:请问您是4月1日吗?
以往传播谣言的行为已经很可笑了。
Wtf的愚人节玩笑都当真的话,只能祝贺国内这群“媒体”再创新低?
道桜Google Chrome 64.0.3282.186Windows 102018-04-01 18:56
@剧毒术士马文:4月1日啦,别那么认真呗
xing0999Google Chrome 57.0.2987.132Linux2018-03-30 11:51
老黄真阴险呢
拿农企趟hbm的雷
自己捡现成的(笑)
在amd看大门未知浏览器Iphone 10_3_3 like Mac OS X2018-03-30 09:42
不服不行,英天堂switch提早实现了显存统一使用,其实就是给未来mcm铺路,这么多营收不是白来的。amd现在先得追上性能再谈别的
wangbaisen1990Google Chrome 57.0.2987.108Linux2018-03-30 10:30
@在amd看大门:显存统一使用第一个不是ps4么?
在amd看大门未知浏览器Iphone 10_3_3 like Mac OS X2018-03-30 11:14
@wangbaisen1990:ps4是显存内存一体化,这个是不同核心显存统一调用,
wangbaisen1990Google Chrome 57.0.2987.108Linux2018-03-30 11:21
@在amd看大门:哦
这个amd不也有类似技术嘛
在p47上的
wangbaisen1990Google Chrome 57.0.2987.108Linux2018-03-30 07:48
我记得显卡的rtx最早是a卡演示的吧
nicemingSafari 602.1iPad OS 10_3_2 like Mac OS X) AppleWebKit2018-03-30 07:47
project 47 要凉
道桜Safari 604.1Iphone 11_2_6 like Mac OS X) AppleWebKit2018-03-30 02:54
按摩店不是还有个Vega Cube在吗……
111Google Chrome 36.0.1941.0Windows 8.12018-03-30 11:19
@道桜:根据inteli7-8809g的使用情况来看,vega在小核心范畴(流处理器数目不超过2560)能耗比还不错,往大了发展能耗比惨不忍睹(vega56/64的德行),还是赶快开发新架构吧~
wangbaisen1990Google Chrome 57.0.2987.108Linux2018-03-30 12:01
@111:n卡也有类似现象吧
估计都需要大改才行
xing0999Google Chrome 57.0.2987.132Linux2018-03-30 12:04
@111:vega10大核心配置根本不均衡
与图形性能相关的后端如rops等一直与流处理器的数量不匹配
导致空有12.5T的浮点结果只能和1080对打
8809g的那个vega还好些
桜道月Google Chrome 64.0.3282.186Windows 102018-03-30 12:55
@xing0999:就VEGA 10核心来说,我个人认为Vega的重要市场是计算卡(MI-25)专业卡(PRO SSG,WX9100)方向
游戏卡做到1080水平我觉得已经是可以接受的了
appleacheGoogle Chrome 65.0.3325.109Linux2018-03-31 11:00
@桜道月:这是咸鱼的想法,amd现在是以ttx规模的晶体管来打1080,而1080现在已经可以塞笔记本里了。游戏卡依然是amd主市场,而且历来amd自己的计算卡市场就没多少。现在能耗比即使算上算力也不是很好看,以后无论是游戏还是计算卡差距也只会越来越远。而且最关键现在amd自己的悲剧表现+矿卡潮基本上已经完全断送了国内的渠道,变成国内都没人爱卖a卡了一下。
wangbaisen1990Google Chrome 57.0.2987.108Linux2018-03-30 13:35
@xing0999:这个问题不是从阿三接手一来都有嘛,
起码290x和7970还是问题不大的
xing0999Google Chrome 57.0.2987.132Linux2018-03-30 12:08
@111:另外这次的hbm2提供的带宽也限制了性能发挥
hbm2超频到950性能有很大提升

返回顶部    首页     管理  
版权声明      pw:moepc.net或mykancolle.com (有时需加www.) 留言补档
本站JPEG均经过Google Guetzli压缩
网站纯属爱好 无盈利无广告(亏本运行)
恕不提供软文和饲料 这里只有特效药。
部分内容来源于网络,并不代表本站赞同其观点和对其真实性负责。
如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容。
本站资源仅为个人学习测试使用,请在下载后24小时内删除,不得用于商业用途,否则后果自负,请支持正版!
illust-AMD/Ryohka
Feel free to use your Adblock, we don't have any ads.
Foreign visitors, if you have any questions, leave a comment in English/Japanese/German.
(just copy and paste one Chinese character cauze the anti-spam settings.)   sitemap