Intel带来Skylake-X处理器:消费级18核 = $1999
首页 > 观测 > 数码科技    作者:剧毒术士马文   2017年6月17日 14:42 星期六   热度:2988°   百度已收录 16条评论    
时间:2017-6-17 14:42   热度:2988° 

评测出来了,进一步的架构细节有时间了会更新在这个帖子

本文地址:http://www.moepc.net/?post=2068

2017.06.13更新:

Intel在放出价钱之后,又放出了具体出货日期,12核及以上依然没有任何频率和其他规格信息。


KabyLake-X 4核、Skylake-X 6-10核为6月26日开售,同时开始12-18核的预订【hehe...】

HCC阉割而来的Skylake-X 12核为8月开售

HCC部分的Skylake-X 14-18核10月开卖


Intel现场演示用i9-7980XE 演示《无人深空》VR

这个组合非常讽刺。


点击查看原图





-------------2017.06.02---------------------


一年半之前我们就开始等待HEDT版Skylake的到来,一直认为它会是对Broadwell-E的一次换代更新:加一两个核,涨一点价,换个新插槽,然后完事。然而Intel这次带来了“惊喜”:Skylake-X将把HEDT的核心数从10增加到18


img010.png

img003.png


发布分好几个部分,首先是



Part1.低核心数 LLC Skylake-X处理器


上代Broadwell-E提供了4款处理器:2款6核,1款8核和顶级的1款10核。6核的两款差距主要在PCIe通道数上。这一代旗舰比上代Haswell-E多了2个核。


这个策略派生自Intel的“LCC” Low Core Count低核心数核心。Intel的企业级至强产品线有3种设计:低核心数、高核心数和极高核心数设计 - LCC、HCC和XCC。【上代是LCC/MCC/HCC,一个东西命名不同罢了。】所有至强都是这三种设计经过不同程度的阉割而来。对于消费级HEDT平台,比如HSW-E和BDW-E,都是LCC的产品。


Skylake-X阵容的前半部分与此相同,都是LCC核心。Intel将会发布4款LCC SKL-X,最多12核心。


QQ截图20170530223420.png


最低端的是i7-7800X,3.5GHz默认,4.0GHz加速,不支持TBM3(TurboBoostMax3.0),6C/12T,四通道DDR4 2400,TDP 140W。

PCIe通道数只有28条,售价$389。这颗处理器属于四通道内存的入门级


然后是i7-7820X,在LCC设计中处于Sweet Spot地位。

8C/16T,3.6GHz默认,4.3GHz加速,4.5GHz TBM3(单核/双核),支持四通道DDR4 2666

但是与Intel通常策略不同的是,这款CPU的PCIe通道也被阉割到了28条。

正常情况下只有最低端的那款才会阉割,很明显Intel在核心数之外添加了PCIe这第二个分级因素。

TDP也为140W,售价$600,在这价位直接对手是Ryzen 7 1800X,IPC落后一代,但价格也便宜$100。


QQ截图20170530223427.png


第三款则是新的Core i9系列的成员。之前我们有i3/i5/i7,现在Intel认为命名需要再加一层,i9这个命名就显得理所当然了。i9带来的明显“提升”在于PCIe从28条增加到了44条。


corei9chip_575px.jpg



i9-7900X是目前唯一一款信息比较多的i9处理器:10C/20T,3.3GHz默认,4.3GHz加速,4.5GHz TBM3。支持DDR4 2666,140W TDP。这个级别Intel收钱基本是$100/核,所以价格是$999(零售$1049)


7900X是完整LCC。


IVB-E那代,旗舰6核需要$999;HSW-E的旗舰8核也是$999。到了BDW-E,Intel把旗舰级10核涨价到$1721,因为对应的企业级至强也是这价。至于SKL-X,新的价格策略又回到从前,10核售价$999,正是之前BDW-E旗舰6950X预计的价格。虽然不是旗舰,价格至少回到了合理范围。


同时i9-7900X也将是第一款能买到的i9,后续型号还得等段时间。


i9-7920X由HCC阉割而来,它将在今年晚些时候到来【八月?】,12C/24T的规格,售价$1199(同样按$100/核收费)。


据称Intel还在验证这款CPU的频率,想找到功耗和性能的平衡点,虽然按照我们理解它可能会变成165W而不是140W。


在企业级市场,前几代里Intel一直都有TDP异常高的处理器,这些通常称为“工作站”处理器【-W后缀】,用于单路或双路主板,并大幅提升频率和价格。7920X的性能、能耗比以及定价必须要合理。目前很多东西还没定下来,因为如果真拿出高频12核就可能影响部分至强的销量。



Part2.高核心数 HCC Skylake-X处理器


【规格?不知道。性能?不知道。发布时间?不知道。关心的理由?不知道。只知道名字,核心数和价钱而已。】

故事的转折点在于下面这批处理器。Intel出人意料地把HCC设计带到了消费级市场。


Skylake的HCC是18或20核。为什么说“或”,因为和我们原先预想的稍有不同。如果你半年前问我,我会说HCC是18核设计。前几年的LCC为单环形总线,HCC设计都是双环形总线(可能不平衡),为了平均每个核心L3的延迟。


点击查看原图

上代E5V4  Broadwell-EP的设计

MCC=这代HCC

HCC=这代XCC。



下面是HCC SKL-X的设计


img001.png

img006_guetzli.jpg




很明显有重复的部分:4x5,很像是20核+双环形总线设计。再仔细看最下面一排左数第二个核,颜色明显不同,这些是实际核心?还是因为支持AVX-512?或者不是核心,只是为了占地?我们向Intel提出过相关问题,不过到发布为止Intel都不会提供更多信息。

现在证实SKL-X使用类似于Knights Landing的“mesh”结构,不是之前的环形总线,而是一堆环形总线,那两个不一样的“核心”是IMC


下面是Intel计划发布的HCC SKL-X产品。


QQ截图20170530223517.png


i9-7940X为阉割版HCC,14C/28T,散片售价$1399,依然每核心收费100刀;实际零售价应该在$1449-1479。

应该也是DDR4 2666,44条PCIe


7960X为16C/32T,散片售价1699刀(零售$1779?),应该也提供DDR4 2666,44条PCIe的支持。



img012.png



i9-7980XE作为“光环”级旗舰产品,提供18C/36T,售价$1999(零售~2099刀)。现在这个点,没人知道这款什么时候能开卖。我估计就连Intel自己都不清楚。




解析:为什么现在提供HCC处理器?


Threadripper是AMD的HEDT处理器,提供16C/32T。Ryzen 7与BDW-E竞争的时候,Threadripper没有直接竞争对手,除非把至强考虑在内。


澄清一点,整个SKL-X并不是对Threadripper的回应。Skylake-X,基于我目前的理解,原来只有LCC:最多12核,就这样,安好。与Ryzen 7相比,BDW-E有核心数、缓存和IPC的优势。Intel有最好的,可以坐地起价。($1721的6950X和$499的1800X哪个更值,全取决于你的钱包)业界的几乎每个人,至少是我交流过的那些人,也抱有相同的期待。Intel本应发布LCC Skylake-X,最多12核,保持差不多定价,然后坐享其成。


chipback_575px.jpg


在5月初FAD上AMD宣布Threadripper的时候,我怀疑当时Intel可能瞬间爆炸(如果在之前没有的话)。如果AMD拿出16核给消费级,就算IPC比Intel低个几个百分点,还是应该比Intel的LCC 12核要强的,12核就不再会是“光环级”产品。


当然还有一些其他因素,目前我们还不知道Theradripper的详细规格,而且Intel也有更大的生态系统,友商更多。


Intel卖掉了大量顶级HEDT处理器。就算10核$1721的6950X卖得最好我也不会感到惊讶。所以如果AMD拿到了性能王冠,Intel就会失去它保持了10年的性能宝座。


所以想象一下Intel当时全速运转的状态。他们会想到什么?用性价比竞争?提升频率?在以前频率竞赛年代你大可以搞一款高TDP的新处理器,挑下体质好的。在现在核战争的年代,如果IPC领先不多,你就需要实际的物理核心来提供更好性能。所以我估计Intel就只有下放HCC芯片这一条路好走。


img005.jpg


当然我也推测Intel内部有过争论。HCC/XCC至强是Intel服务器的主要收入来源。把这些下放到消费级的话,中小企业为了节省大量开支就可能投奔消费级平台,而这些人占了服务器市场的不少份额

Intel也没法把HCC处理器按企业级的价卖。


HCC可能是最好的选择,Intel依然可以卖出许多高端处理器,但营收会从企业级转向消费级。同时也能击退AMD的任何威胁。


Intel有2款CPU对抗Theradripper:1699$的16核7960X,以及1999刀的18核7980XE。Threadripper设计为2xMcM Zeppelin die,单颗Zeppelin 95W TDP下能达到3.6-4.0GHz,所以190W的16核Threadripper应该也能达到3.6-4.0GHz,我们知道AMD的高端都是特挑的,所以在140W下实现3.2-3.6GHz也是很容易的。这意味着如果AMD把Threadripper定在140W 3.2GHz左右,这俩i9也应该在这附近。一般除了超高端工作站处理器,Intel不会把所有HCC处理器频率定这么高。


虽然SKL有IPC和能效优势,Intel还是得先发制人。另一个未知数是AMD的定价,如果Threadripper定价$999-1099怎么办?


个人意见,这两家都值得称赞。AMD带来改变,Intel升格竞争。过去好几年都没有这样的事情了。


(实际上我预测Ryzen 7会在$699,实际发布1700只卖$329让人意外)


AMD Threadripper是2xMcM设计,每个Zeppelin上为2个4核CCX。在Ryzen上,当一个核心需要另一部分缓存中的数据时,缓存到缓存的延迟不一致。

而Intel HCC设计上,依然使用双环形总线设计的话,也会有相似的问题。【现在证实SKL-X使用类似于Knights Landing的“mesh”结构,不是之前的环形总线,而是一堆环形总线

这两个设计都类似于NUMA

都知道NUMA的优化很需要技巧,而且支持NUMA的软件基本都是企业级,消费级应用包括游戏基本没有NUMA代码,所以性能优化方面会需要一个过程。



0617更新:Skylake-X的mesh 网格结构


Intel在8年后,终于准备摆脱环形总线了。


在2010年,Intel首次在Nehalem-EX上引入了环形总线,有效解决了核心/缓存间数据传输的问题

环形总线也是Intel这几年来架构的基石。



当时的8核已经算很复杂了,不好直接串起来

该举措的确是非常聪明的方法,双向低延迟高带宽的环形总线,还不占多大面积(占的是金属层)。



QQ截图20170617212930.png

点击查看原图

图源:PCWATCH



到后来的Broadwell-EP/EX上,核心数达到了22/24个,情况开始转变



可以看到LCC还只有1条双向环形总线,数据从1个核移动到距离它最近的相邻核需要1个周期,向更远的核移动就需要更多周期,这增加了额外的延迟。

由于每个核心都有各自的缓存区片,所以增加的延迟也会影响缓存性能。

如果是单向环形总线,数据移动到最远的核需要最多12个周期,所以Intel采用了双向环形总线降低延迟。


而在HCC处理器上就暴露出环形总线的最大问题 - 为了增加核心数,Intel不得不采用2条双向环形总线,这2条环形总线之间需要通过缓存交换(Buffered switch)。

交换会增加5个周期的延迟,然后数据继续向着目的地前进。增加的延迟限制了拓展能力,更耗电,消耗的热量也更多【想象一下核心更多的情况,延迟会怎样】



所以在核心数只多不少的Skylake-X上,Intel带来了“新的”mesh 网格结构

这结构并不是什么新东西,早在4年前的Knights Landing上就用过了。


而且上面清清楚楚地写着“Mesh of Rings”

是的,这玩意不是环形总线

而是一堆环形总线。

点击查看原图

点击查看原图


Knights Landing用一堆环形总线来组成“mesh” - 网格,只是每个环从原来的双向变成了4个方向 - 上下左右

“mesh” 网格结构的拓展性比环形总线强很多,72个核心的KNL就是例子,Intel只需要在中间加上更多核心即可


Knights Landing的数据移动方向是单向的:数据先在垂直方向上移动,直到它移动到正确的行上,然后再水平方向移动,直到命中正确的列。


在Skylake-X上不知道是什么样,应该不会做太大改动。


点击查看原图

img005.jpg

28核Skylake-SP及“mesh”结构图





Part.3 Skylake-X新的L3缓存架构


L2延迟比SKL-S略微增加,现在是13个周期


在前几代HEDT和Xeon处理器上,Intel采用了3层级缓存的架构。L1和L2为每个核心的private(私有缓存),且为Inclusive(包含式缓存);L3则作为LLC缓存,涵盖所有核心,也是Inclusive。总的来讲这相当于L2的所有数据在L3里都有一份拷贝,如果一个数据块被驱逐进L2,它也将存在于L3内备用,就不需要跑大老远访问内存了。同时缓存大小也很重要:L3是L2的包含式缓存的情况下,L3大小通常是L2的倍数,以便存储L2的所有数据再加上L3的额外数据。Intel自从第一代Core i(Nehalem)起就是每核心256KB L2,平均每核心1.5-3.75MB L3,L2和L3的容量及性能空间都很充足,而且L2距离核心逻辑部分更近。


QQ截图20170619231650.png


在Skylake-X上,缓存设计有了改变。在Skylake-S发布当初,我们发现SKL-S的L2关联度有所降低,从Broadwell的8路组相连变成了4路组相连 - 带来了更多的模块性,在SKL-X上就用上了这一点。SKL-X每核心的私有L2增加到了1MB,为原来的400%,代价是砍了L3,从每核心约2.5MB减少到了每核心1.375MB。


img001.png


L2已经这么大了,那么L3就不会再是L2的inclusive,现在变成了“non-inclusive”【介于inclusive和exclusive之间】,L3依然保有部分Victim cache所不具备的L3特性,比如预取。这也意味着在Snooping(监听)和追踪数据块位置方面要做出更多付出,核心将会监听其他核心的L2,寻找更新的数据(内存作为备份,数据可能过期)。前代的L3一直都是作为备份,现在情况不同了。


inclusive_caches.png


QQ截图20170607172855.png

图源:沧者极限


img004.png

Xeon Gold 6130的缓存 图源:InstLatX64



这样设计的好处在于大容量L2会提升命中率,降低未命中率。


取决于组关联度【根据测试应该是16路组关联】,一般情况下2倍缓存容量能够将缓存未命中率降低2的平方根(1.41)- 变为原来的70%,在通常应用中带来3-5%的IPC提升。


那么在SKL-X上:L2的未命中率将为原来的约49% - 命中率变为原来的200%,IPC提升8-13%。虽然除了缓存之外的架构都没变,但SKL-X和SKL-S的性能会不同。


测试的IPC






Ian一开始的想法是缓存布局不变,只是将原来的部分L3设计成L2。这样情况会比较复杂,有部分L2的延迟就和L3一样,如果L2延迟不一致会带来很多麻烦。这个方法虽然只用在原有设计上稍作改动,实际实施起来却很难。


根据PPT上HCC SKL-X的die shot,很明显L3没有涵盖所有核心,而是分块的。而且现在每核心的L2和L3容量也差不多,根据这两点事实Ian怀疑SKL-X就是用的1MB L2,能带来高命中率和持续的低延迟访问。



Part.4 AVX-512/Favored Core


首先是Skylake-X上对AVX-512的支持。Intel在上代Knights Landing Xeon Phi处理器上引入了AVX-512(至少是某种变种),在SKL-X上是首次将AVX-512带入消费/企业核心领域。


img005.png

Intel处理器对AVX-512的支持,图源InstLatX64


img005.jpg

Xeon Platinum 28C

点击查看原图

i9-7XXX,18C


SKL-X的端口配置,端口0,1的FMA为256bit,执行AVX-512-F是两个端口合并的,与KNL类似。

6核、8核的Skylake-X支持1条合并的AVX-515-F

10核支持2个AVX-512-F端口,可能是端口5

只有基于XCC晶片的Xeon Platinum 81xx及Xeon Gold 61xx才有2个AVX-512 FMA


Port 0: ALU/Vec ALU, Vec Shft/Vec Add, Vec Mul/FMA, DIV, Branch2
Port 1: ALU/Vec ALU/Fast LEA, Vec Shift/Vec Add, Vec Mul/FMA, Slow Int, Slow LEA
Port 2: Load/Store Address
Port 3: Load/Store Address
Port 4: Store Data
Port 5: ALU/Vec ALU/Fast LEA, Vec Shuffle, (FMA on 10-core SKL-X)
Port 6: ALU/Shift, Branch1
Port 7: Store Address


Skylake-SP的AVX-512单元支持范围很广,只要编译器出来了,可以轻松将通常的代码导入到AVX-512,比以前SSE导入AVX容易得多

Intel想让软件商利用编译器提升性能,主要目标还是企业市场,导入一般软件还需要一段时间。



与AVX/AVX2一样,AVX512的目标是提供强大的硬件来解决向量计算。AVX单元耗费很多晶体管,密度很高,所以持续的计算会产生大量热量:支持AVX/AVX2的Intel处理器在运行AVX指令一般会降频,AVX512也没有两样。Intel没有揭晓执行AVX-512指令时的运行频率,如果每个核心都支持AVX-512,那么降频应该只会影响那单个核心。


有了AVX-512,Intel将i9-7980XE称为首个TeraFLOP CPU,具体计算方式未知。AVX单元和GPU一样可以计算向量,以独立硬件单元完成并行计算 - 传统通用CPU和其他硬件的界限正在变得模糊。


Favored Core


上代Intel HEDT平台Broadwell-E上Intel引入了Favored Core,也被称作“Turbo Boost Max 3.0”。原理是生产线上下来的每颗CPU都不同(即便同型号),每颗CPU内部的不同核也会有不同的电压/频率特征。能达到最高频率的那个核就被称为“Favored Core”,当Intel的WIN10驱动软件到位后,单线程负载就会被移到这个核上,运行更快。


理论上很美好 - 单线程比传统的睿频频率要高100-200MHz。但实际上就不那么好了:主板厂商没提供支持,或者BIOS里默认是关闭的。

而且买家还要装驱动和软件,少一样就没有作用。


img013.png


在Skylake-X上Intel也做了改动,驱动和软件变成了WIN10更新的一部分,所以买家自动就会被安上这些。

Skylake-X上的TBM3也从单核变成了双核。


何时出货


KBL-X/LCC SKL-X预计在6月

12核7920X估计在8月

至于14/16/18核影都没有,只会更晚。

Intel只放了个价格给你们看看罢了


img011.png




via:anandtech/Twitter/网络搜集

基于http://www.anandtech.com/show/11464/intel-announces-skylakex-bringing-18core-hcc-silicon-to-consumers-for-1999

原作:Ian Cutress

部分信息来自网络

AVX-512:InstLatX64

Mesh结构:Semiaccurate/TomsHardware

本站编译,转载请注明出处。

本文地址:http://www.moepc.net/?post=2068

二维码加载中...
本文作者:剧毒术士马文      文章标题: Intel带来Skylake-X处理器:消费级18核 = $1999
本文地址:http://www.moepc.net/?post=2068
声明:若无注明,本文皆为“MoePC”原创,转载请保留文章出处。

WRITTEN BY

avatar
1311abcd11Google Chrome 99.0.9999.99Windows 102017-07-26 22:15
听说7980XE Turbo Boost Max 3.0能到4.5GHz。。。
剧毒术士马文Google Chrome 59.0.3071.115Windows 102017-07-27 00:30
@1311abcd11:单核
ayuGoogle Chrome 40.0.2214.89Linux2017-06-18 10:35
马文威武!!!
ssnitrousoxideGoogle Chrome 58.0.3029.83Linux2017-06-13 15:31
哈哈哈No Man's Sky,没人(买得起)的Sky(lake)
剧毒术士马文Google Chrome 59.0.3071.86Windows 102017-06-13 15:47
@ssnitrousoxide:gg
You've got it
二之宫同学Google Chrome 40.0.2214.89Linux2017-06-08 08:56
amd一脚踩在牙膏管上
amdfanFirefox 50.0Android2017-06-08 03:38
最便宜tr16core $849
青之淘SouGou Browser 2.XWindows 102017-06-08 02:09
INTEL 环形总线
AMD RYZEN 又是什么总线
OriginGoogle Chrome 58.0.3029.110Windows 102017-06-08 12:58
@青之淘:IF总线
ayuGoogle Chrome 40.0.2214.89Linux2017-06-08 18:09
@Origin:超能网的编辑Origin?
打酱油的Google Chrome 58.0.3029.110Windows 102017-06-07 18:07
7800x是和1700的对位产品吗?
AyuGoogle Chrome 40.0.2214.89Linux2017-06-06 18:54
还有能不能做一期,Intel环形总线的讲解?
AyuGoogle Chrome 40.0.2214.89Linux2017-06-06 18:51
怎么缓存和AVX-512没有下文了?
剧毒术士马文Google Chrome 58.0.3029.110Windows 102017-06-07 18:28
@Ayu:更新了

返回顶部    首页     管理   注册   
版权声明       pw:mykancolle.com或moepc.net 若被菊爆请留言补档
内容来源于网络,并不代表本站赞同其观点和对其真实性负责。
如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容。
本站资源仅为个人学习测试使用,请在下载后24小时内删除,不得用于商业用途,否则后果自负,请支持正版!
illust:Girls und Panzer Foreign visitors, GoogleTranslate will help   sitemap