正在阅读：还需要显存吗?最新APU内存统一寻址解析还需要显存吗?最新APU内存统一寻址解析

2014-05-29 00:15 出处：PConline原创作者：Fison 责任编辑：chenzhangwu

1八年磨一剑：异构计算终实现回顶部

　　【PConline 应用】2006年收购了ATI后，AMD一直处于双线作战的状态，在与Intel的CPU竞争以及与NVIDIA的GPU竞争中疲于奔命，在性能竞争中总给人一种落后的感觉。当然AMD早就知道自身先天环境的不足，所以更倾向将CPU与GPU进行融合，实现1+1不止于2的效果。APU回应双线竞争的利器，直接将入门级独显宣判死刑，这就出自AMD之手。

还需要显存吗？最新APU内存统一寻址解析

　　但是，融合处理器仅能在整合市场发挥一下，在高性能竞争中依然是被动的，那么AMD还有什么秘密武器呢？那就是统一内存空间寻址。

八年磨一剑：异构计算终实现

APU是将CPU、GPU整合的处理器

　　如果APU只是CPU、GPU的简单物理整合吗，那就大错特错了。AMD一直宣传APU不仅仅是CPU与GPU的整合，更是更是深层次的融合，而实现这种融合的关键之一就是CPU、GPU的统一内存空间寻址。

CPU单元和GPU单元分别控制着各自的内存区域

　　在HSA架构诞生之前，CPU单元和GPU单元分别控制着各自的内存区域，当CPU和GPU交互数据时，需要将自身内存区域中现有的数据复制一份到对方的内存区域中，这样在无形中降低了平台的工作效率。AMD认为，现在的CPU发展已经遇到了瓶颈，传统CPU架构决定了它无法在并行运算上做出更大的贡献。

一代APU强调的只是1+1

二代APU在性能上进行增强而不是异构上

　　第一、二代的APU，就是使CPU与GPU单元之间的传输通道由PCI-E总线升级成速度更为理想的内部总线，有效的降低了传输过程中的数据延迟，虽然没有从根本上解决CPU与GPU的数据共享问题，但却为HSA的出现奠定了重要基础。

第三代APU终于将异构体系完全建立起来

　　第三代的Kaveri APU，是AMD首款正式全面支持异构体系（Heterogeneous System Architecture，简称HSA）的产品，彻底实现统一寻址。CPU、GPU之间就可以有通用的用户调用，并共享数据，从而避免相互的数据拷贝和带宽浪费，也摆脱对高内存频率的依赖，为二者的更进一步融合奠定坚实的基础。无论是3D图形性能还是并行计算性能，都会因此上一个台阶。

“CPGPU”的钥匙：hUMA

　　要实现CPU与GPU的数据自由互访，功臣就是hUMA也就是异构统一内存空间寻址。

hUMA简单来说就是GPU可直接访问CPU的内存

　　统一内存空间寻址就如一个连贯快取的系统，让CPU和GPU能共享同一个内存空间，让CPU和GPU在内存上看到的数据都能维持一致，如果其中一方上的数据改变，即便旧数据经过快取，另一方还是能看到经改变的数据。

CPU和GPU能共享同一个内存空间

　　透过统一内存空间寻址，CPU和GPU能共享同一个存储空间，并且CPU能够直接存取GPU的存储位址，不必像过去得花工夫再将GPU的运算资料复写到CPU上。数据不再需要在CPU与GPU间搬移，GPU可直接访问CPU的内存，效率大为提高。当CPU读写资料时，GPU也能同时读写资料。

hUMA的特性

　　统一内存空间寻址也能用在CPU的需要配置虚拟内存(demand-paged virtual memory)上。当GPU要存取写在磁盘上的位置时，CPU就能让操作系统去寻找，并加载相关的数据进内存中。

2GPU不再是CPU佣工回顶部

GPU不再是CPU佣工

作用1：大幅度降低内存延迟

　　统一内存空间寻址的诞生解决了系统中计算核心访问与读取内存的问题。所有的计算核心都将共享一个单一的内存地址空间，并且CPU或GPU中任意一个处理单元做出的更新，对其他所有处理单元均可见。

作用2：内存的利用更具效率

　　除此之外透过hUMA GPU还可以支持分页内存管理，GPU可以产生缺页异常，不再受限于传统上的页表锁定内存，而且内存整体空间得到了有效利用，CPU和GPU进程可以从整个内存空间中动态分配内存，避免了以前硬性分配造成资源浪费的尴尬。

作用3：增加了GPU异构支持让APU的异构计算能力得到数倍增加

　　举个简单例子，A10-7850K异构计算能力看评测有856 GFLOPS，而e3-1230 v2的计算能力只有82GFLOPS。假如程序支持OpenCL加速，那么支持异构计算的APU浮点运算能力就相当逆天了。现在photoshop，premiere，3d渲染器开始支持OpenCL，APU的潜能可释放出来。

支持OpenCL加速的PS

在异构运算支持的OpenCL下，APU的性能比i5还要强得多

　　最后，我们为什么如此热衷AMD显卡进行挖矿，这就是AMD对通用运算的重视的原因。

内存=显存？！

　　我们知道，目前最新的专业显卡W9100自带高达16GB容量的显存，而目前游戏显卡，2GB显存就已经满足需求了。什么导致这样的差距呢？那就是渲染对显存的需求。

大容量显存显卡盘点
显存容量需求是区分专业卡与游戏卡的其中一因素

　　专业图形卡对3D图形的渲染消耗的显存非常大，如今16GB显存才算主流，目前基于gpu的渲染器对显存的要求下限为4GB。这对于游戏显卡来说，显存是完全不够用的。比如，一个blender cycles渲染器搭配GK104 SLI进行广告渲染，基本一天20个小时满载，一个月这个平台宣告报废，而渲染效果只有一丁点……

统一寻址理论上可以不需要显存了

　　统一寻址实现后，理论上讲能把内存全当显存用来渲染，再也不用担心显存不够了。同时，显存与内存的无缝结合，让数据交换更效率，让整合平台下对内存的利用比起以往的硬性划分内存到显存更高效。相信将来会实现内存共享给CPU与GPU的应用，不需要担心8GB内存会被割肉。

统一寻址内存更有利于笔记本电脑的轻薄趋势

　　听起来很诱人，那么我们这不需要显存了吗？只需要买足够大的内存，那么显存就能省掉吗？从统一寻址的理论来看，这是有可能实现的。这对于对空间控制要求较高的移动平台来说，尤其需要。假如内存可用在显存中，那么独显、融合平台可共享内存，省掉了显存的布局、供电模块以及空间占用，这样玩家既可以享受到更彪悍的3D性能以及更轻便的笔记本重量。

　　不过，这个理论只是局限在APU的异构运算上，更局限在OPENCL的应用上，我们常见的办公、系统、游戏中依然没有任何的支持。所以，还需要AMD的努力。

3总结：只是星星之火回顶部

总结：只是星星之火

APU的异构运算是通过OpenCL通用计算技术实现的

　　理论毕竟只是理论，我们看到的体验到的才是问题的根本。目前APU虽然完全实现了异构计算，并且能够实现GPU与CPU的性能并联，但实际上这种加速是通过OpenCL通用计算技术实现的。所以，要实现统一内存寻址，那么只能在OpenCL下实现。

　　所以，别以为统一内存寻址能让我们立即放弃显存这是不可能的，根本原因就是这个技术目前生存空间很小。

微软的两座大山注定让OpenCL游离在Windows之外，也是APU的痛

　　摆在它面前的是微软这坐大山，为何我们平时用电脑都很难体验到异构运算？那就是因为API的相斥：系统层面上的HTML5、DirectCompute与异构支持的OpenCL的三国鼎立，还有游戏上的DirectX的一统天下，OPENCL根本无生存空间。在Windows系统下，OpenCL运算的应用只占很小的部分。只有photoshop，premiere等软件以及专业性很强的3D渲染器。所以菜鸟们听到某些广告而入手了APU在开机速度中被i3“默秒全”，那也是正常的。

脱离了微软的魔爪，APU的hUMA技术在PS4得到了证明

　　未来是光明的，现在还是黑暗的，这就是APU的异构技术与统一内存寻址目前的生存状况。不过还是有好消息的，就是异构技术在PS4中得到了应验，通过hUMA统一寻址，PS4在性能上打败了XBOX One。

　　如今，我们买APU更多是为了方便而不是技术。只希望AMD与应用层的联合更加密切与广泛，为大家推出更多支持这项技术的应用程序，毕竟它是一项创新。这种创新，