合肥本本之星合肥Thinkpad专卖店合肥Apple专卖店 hfthink 合肥本之星信息科技有限公司

标题: Broadwell CPU/GPU架构预览：竟然领先NVIDIA！ [打印本页]

作者: 爱国者 时间: 2014-8-15 20:06 标题: Broadwell CPU/GPU架构预览：竟然领先NVIDIA！

【Core M CPU架构预览】
2006年进入酷睿时代之后，Intel就坚持(几乎)每年交替升级CPU架构和制造工艺，也就是广为熟知的Tick-Tock。
Broadwell属于其中的Tick，也就是工艺升级、架构基本不变，明年的Skylake则是另一次Tock，工艺不变，架构革新。

从这个角度上就可以知道，Broadwell CPU架构其实没什么好说的，也就是一些微调，不会看到明显变化，性能提升更是不要期望太高。
事实上，这几年甚至连Tock都很不“称职”了，去年的Haswell CPU性能也就提升了不到10％，让很多人大失所望。

Intel透露说，Broadwell IPC(每时钟周期指令数)会比Haswell提升大约5％，很类似Ivy Bridge 4-6％，当然了这是理论上的同频对比情况，实际表现还取决于频率变化、不同的应用环境。
架构方面其实也有增强，首先就是更大的调度器和缓冲，可以更好地满足CPU核心需要。举例来说，乱序调度窗口增大了，可以记录更多指令，进而改进IPC。
同时，L2 TLB入口也从1K提高到了1.5K，从而减少寻址转换失误。TLB的功能也得到了扩展，都有利于改进性能。
分支预测器照例拎了出来，继续号称减少预测错误和不必要的内存操作。
数学性能方面，乘法和除法都因为各自硬件的改进而有所增强，其中浮点乘法的指令延迟从5个周期降至3个周期，除法使用了更大的Radix-1024 10位除法器。
此外还有加解密的深入改进，但不知道是否术语AES-NI或其他指令集。
能效方面，Intel现在是异常看重。以前每提升1％的性能，就要多付出1％的功耗，也就是1:1，而现在Intel号称做到了2:1，也就是如果性能提升5％，功耗只会增加2.5％。
电源栅极、设计优化这些涉及硬件底层的能效优化是每一代必需的，而且不仅适用于Core M，未来所有的Broadwell都具备。

作者: 爱国者 时间: 2014-8-15 20:06

【Core M GPU架构预览】
如果说这些年Intel CPU架构意兴阑珊，GPU就是一直在大跃进了，已经到了足以威胁AMD APU的地位，而且凭借庞大的市场份额(天下三分有其二)，势头那叫一个好。
Ivy Bridge、Haswell上的GPU分别是第七代、七代半，Broadwell是在它们基础上的继续改进，但还不足以称之为第八代(Intel自己都没这么说)，因为底层架构几乎完全相同的，只是在规模、性能、功能、技术上深入增强。

API支持方面已经和NVIDIA、AMD处于同一档次，完全支持DX11.2(以及OpenGL 4.3)，或者确切地说是Direct3D Feature Level 11_2，甚至还领先于NVIDIA，开普勒、麦克斯韦架构都仅支持11_0。11_2虽然改进不多，只有分块资源、预编译着色器头等细节，但至少在名义上，Intel走到了NVIDIA前边！
下一步，Intel还会支持到DX12。
计算方面，确认支持尚未公布的OpenCL 2.0，包括共享虚拟内存，大大提升计算性能。Intel虽然没有类似AMD HSA那样的可编程异构架构，但至少可以在Broadwell CPU/GPU之间直接共享复杂数据了，而不用来回拷贝。
再深入一些，Intel其实还是在架构上做了调整的，增强了不同执行单元之间的平衡。

Haswell-Y的核显是GT2，是单独一个区块(Slice)，又可细分为两个子区块(Sub-Slice)，后者是Intel核显最小的功能性单元，包括10个执行单元(着色器)、缓存、纹理/数据/媒体采样器等。
Broadwell-Y将每个子区块里的执行单元减少到了8个，但是每个区块由三个子区块组成，也就是总计24个执行单元，比上代增加了20％。
但影响并不是这么简单，相关的一级缓存、采样器也增加了。每个执行单元的采样器增加了25％，因此同频下的采样输出能力提升了50％。
其实，现代PC GPU都在减少每个执行单元配备采样器的比例，Intel反而增加了，表明之前的架构这方面是有所不足。
包含ROP、光栅器、部分三级缓存的后端有一些微架构改进，提升了像素和Z轴填充率，前端则增强了几何单元，从而提高几何输出能力。
Intel这次没有宣传GPU性能提升了多少多少(很罕见)。结合上述变化，再考虑到14nm新工艺给发热、功耗留下的更大空间，还是可以期待一下的。

说起功耗改进，新工艺并不是唯一，还有个杀招“Duty Cycle Control”(DCC)，占空比控制。——占空比是电子技术术语，大意是脉冲中信号激活的时间比例，又称工作周期。
这些年，Intel一直在努力改进待机功耗，但是晶体管运行需要一个最低电压，也就是阈值，所有到了一定程度，常规方法再怎么努力也是不可能继续降低的。
Intel的解决方法很天才：既然不能继续降压，索性就直接关闭GPU。通过将GPU置于工作周期中，可以大大缩短运行时间，只有原先所需的1/8，这就完全绕过了电压阈值的问题。
这一技术对应用、用户是透明的，无需干预。显示控制器与GPU时钟域分离并始终保持开启，因此无论GPU本身是否否关闭，都不影响显示输出。工作周期的控制通过GPU硬件、驱动程序联合进行。
目前还不知道该技术是仅限于Broadwell-Y，还是整个Broadwell家族都有。

最后说说多媒体与显示方面。因为架构方面的变化，视频质量引擎的输出能力也提升了一倍，QuickSync转码引擎同样有增强和改进。
H.265会有一个混合解码器，支持硬件解码，但是能效没有H.264的高。这主要是因为开发完全固定功能的编码器需要很长时间，Broadwell上有些来不及，只能上这样的临时方案。事实上，NVIDIA麦克斯韦架构的H.265解码也与此类似。
输出规格支持HDMI 1.4、DisplayPort 1.2、eDP 1.3a，最激动的是原生支持4K。其实呢，Haswell就已经支持4K，但是超低压的Haswell-Y上给砍掉了，这次Broadwell-Y没有再落伍，也给了苹果MacBook Air上视网膜屏的机会。

欢迎光临合肥本本之星合肥Thinkpad专卖店合肥Apple专卖店 hfthink 合肥本之星信息科技有限公司 (http://bbs.hfthink.com/)