Board logo

标题: Broadwell CPU/GPU架构预览:竟然领先NVIDIA! [打印本页]

作者: 爱国者    时间: 2014-8-15 20:06     标题: Broadwell CPU/GPU架构预览:竟然领先NVIDIA!

【Core M CPU架构预览】
2006年进入酷睿时代之后,Intel就坚持(几乎)每年交替升级CPU架构和制造工艺,也就是广为熟知的Tick-Tock。
Broadwell属于其中的Tick,也就是工艺升级、架构基本不变,明年的Skylake则是另一次Tock,工艺不变,架构革新。


从这个角度上就可以知道,Broadwell CPU架构其实没什么好说的,也就是一些微调,不会看到明显变化,性能提升更是不要期望太高。
事实上,这几年甚至连Tock都很不“称职”了,去年的Haswell CPU性能也就提升了不到10%,让很多人大失所望。


Intel透露说,Broadwell IPC(每时钟周期指令数)会比Haswell提升大约5%,很类似Ivy Bridge 4-6%,当然了这是理论上的同频对比情况,实际表现还取决于频率变化、不同的应用环境。
架构方面其实也有增强,首先就是更大的调度器和缓冲,可以更好地满足CPU核心需要。举例来说,乱序调度窗口增大了,可以记录更多指令,进而改进IPC。
同时,L2 TLB入口也从1K提高到了1.5K,从而减少寻址转换失误。TLB的功能也得到了扩展,都有利于改进性能。
分支预测器照例拎了出来,继续号称减少预测错误和不必要的内存操作。
数学性能方面,乘法和除法都因为各自硬件的改进而有所增强,其中浮点乘法的指令延迟从5个周期降至3个周期,除法使用了更大的Radix-1024 10位除法器。
此外还有加解密的深入改进,但不知道是否术语AES-NI或其他指令集。
能效方面,Intel现在是异常看重。以前每提升1%的性能,就要多付出1%的功耗,也就是1:1,而现在Intel号称做到了2:1,也就是如果性能提升5%,功耗只会增加2.5%。
电源栅极、设计优化这些涉及硬件底层的能效优化是每一代必需的,而且不仅适用于Core M,未来所有的Broadwell都具备。
作者: 爱国者    时间: 2014-8-15 20:06

【Core M GPU架构预览】
如果说这些年Intel CPU架构意兴阑珊,GPU就是一直在大跃进了,已经到了足以威胁AMD APU的地位,而且凭借庞大的市场份额(天下三分有其二),势头那叫一个好。
Ivy Bridge、Haswell上的GPU分别是第七代、七代半,Broadwell是在它们基础上的继续改进,但还不足以称之为第八代(Intel自己都没这么说),因为底层架构几乎完全相同的,只是在规模、性能、功能、技术上深入增强。


API支持方面已经和NVIDIA、AMD处于同一档次,完全支持DX11.2(以及OpenGL 4.3),或者确切地说是Direct3D Feature Level 11_2,甚至还领先于NVIDIA,开普勒、麦克斯韦架构都仅支持11_0。11_2虽然改进不多,只有分块资源、预编译着色器头等细节,但至少在名义上,Intel走到了NVIDIA前边!
下一步,Intel还会支持到DX12。
计算方面,确认支持尚未公布的OpenCL 2.0,包括共享虚拟内存,大大提升计算性能。Intel虽然没有类似AMD HSA那样的可编程异构架构,但至少可以在Broadwell CPU/GPU之间直接共享复杂数据了,而不用来回拷贝。
再深入一些,Intel其实还是在架构上做了调整的,增强了不同执行单元之间的平衡。


Haswell-Y的核显是GT2,是单独一个区块(Slice),又可细分为两个子区块(Sub-Slice),后者是Intel核显最小的功能性单元,包括10个执行单元(着色器)、缓存、纹理/数据/媒体采样器等。
Broadwell-Y将每个子区块里的执行单元减少到了8个,但是每个区块由三个子区块组成,也就是总计24个执行单元,比上代增加了20%。
但影响并不是这么简单,相关的一级缓存、采样器也增加了。每个执行单元的采样器增加了25%,因此同频下的采样输出能力提升了50%。
其实,现代PC GPU都在减少每个执行单元配备采样器的比例,Intel反而增加了,表明之前的架构这方面是有所不足。
包含ROP、光栅器、部分三级缓存的后端有一些微架构改进,提升了像素和Z轴填充率,前端则增强了几何单元,从而提高几何输出能力。
Intel这次没有宣传GPU性能提升了多少多少(很罕见)。结合上述变化,再考虑到14nm新工艺给发热、功耗留下的更大空间,还是可以期待一下的。


说起功耗改进,新工艺并不是唯一,还有个杀招“Duty Cycle Control”(DCC),占空比控制。——占空比是电子技术术语,大意是脉冲中信号激活的时间比例,又称工作周期。
这些年,Intel一直在努力改进待机功耗,但是晶体管运行需要一个最低电压,也就是阈值,所有到了一定程度,常规方法再怎么努力也是不可能继续降低的。
Intel的解决方法很天才:既然不能继续降压,索性就直接关闭GPU。通过将GPU置于工作周期中,可以大大缩短运行时间,只有原先所需的1/8,这就完全绕过了电压阈值的问题。
这一技术对应用、用户是透明的,无需干预。显示控制器与GPU时钟域分离并始终保持开启,因此无论GPU本身是否否关闭,都不影响显示输出。工作周期的控制通过GPU硬件、驱动程序联合进行。
目前还不知道该技术是仅限于Broadwell-Y,还是整个Broadwell家族都有。


最后说说多媒体与显示方面。因为架构方面的变化,视频质量引擎的输出能力也提升了一倍,QuickSync转码引擎同样有增强和改进。
H.265会有一个混合解码器,支持硬件解码,但是能效没有H.264的高。这主要是因为开发完全固定功能的编码器需要很长时间,Broadwell上有些来不及,只能上这样的临时方案。事实上,NVIDIA麦克斯韦架构的H.265解码也与此类似。
输出规格支持HDMI 1.4、DisplayPort 1.2、eDP 1.3a,最激动的是原生支持4K。其实呢,Haswell就已经支持4K,但是超低压的Haswell-Y上给砍掉了,这次Broadwell-Y没有再落伍,也给了苹果MacBook Air上视网膜屏的机会。




欢迎光临 合肥本本之星 合肥Thinkpad专卖店 合肥Apple专卖店 hfthink 合肥本之星信息科技有限公司 (http://bbs.hfthink.com/) Powered by Discuz! 7.2