正在阅读：卷土重来！AMD新旗舰HD7970 GHz显卡首测卷土重来！AMD新旗舰HD7970 GHz显卡首测

2012-06-22 12:52 出处：PConline原创作者：Man.2 责任编辑：fanjunhui

在本页浏览全文

AMD HD7970显卡GCN架构解析（二）：

　　HD7970架构中的2048个流处理器组成了32个并行计算单元，如此一来，每个计算单元内部就具有64个流处理器，这64个流处理器组成了4个矢量单元(Vector Unit)，每个矢量单元搭配64KB矢量寄存器。GCN架构内，每4个计算单元组成一个运算小组，配备了数据寄存器和一些辅助性功能模块，从而组成了一个完整的运算中枢（类似于一个纯计算功用的核心集群）。

GCN计算单元结构示意图

　　GCN架构中的这些计算单元，是基于SIMD普通指令集的结构模式，抛弃了以往的VLIW（超长指令字）的打包吞吐模式，单个计算单元灵活度、独立性更高，每个计算单元都能同时领取、执行指令，众多计算单元并行处理能力很高，架构利用率和指令吞吐量比VLIW模式更高。

完整的GCN架构（居中的是32个并行计算单元）

　　接下来我们再深入一层，分解一下矢量单元。GCN架构代表着从VLIW4 SIMD向Quad SIMD的进化，前者采用一个VLIW指令和四个ALU操作的方式，内部的16个流处理器一字排开，类似一个一维流水线，更适合机械的高负荷图形运算，而在变量比较多的通用计算上，流水线会反复陷入重置、等待、调用周期，执行效率被浪费。

从VLIW4架构到GCN架构，矢量单元运作方式的变化

　　而GCN与前代产品相比，在最底层的微架构层面上就有着显著的不同。GCN架构矢量单元的内部结构是四个SIMD单元加一个ALU操作，内部的16个流处理器具有多变的组合模式，类似一个能应变组合的方阵，能将各种指令分类后再分派执行，大大增强了计算的灵活性。

　　由此我们可以看出，由于设计理念的转变，GCN架构在为体系上已经与前代产品有很大的不同，GCN不再单纯的追求吞吐量，而是将重点转向了灵活性、效率提升，整个架构从最基层开始就更为灵活的运算优化，架构中层的运算单元在并行效率上也有针对性的效率改进，整个GCN架构更面向“通用计算就是图形计算”的未来趋势。

GCN驾构：更高效更前卫

　　近年来，GPU芯片通过堆流处理器换性能的做法，也有不少架构上的缺点，比如寄存器端口冲突、调度指令复杂等，因此越多流处理器越难以达到理论峰值性能。HD7970的GCN架构在规划上更为清晰、直接，32个并行运算单元，很有针对性的解决了寄存器端口的冲突问题，以高灵活度消除了很多潜在的逻辑死锁现象，从而使得芯片性能更稳定，实际性能表现更接近理论预测值。>>