第4章 并行处理架构:GPU将比CPU更主要 除了在图形处理方面的升级,GeForce GTX 280同样是一款非常出色处理器并行架构处理器。跟上代产品相比,GT 200是一款更纯粹的为并行计算优化的核心,浮点运算能力也达到了933GFlops,是目前CPU处理器的10倍左右。而NVIDIA提出的CPU+GPU的异构运算平台在目前众多领域有着非常大的优势。随着越来越多的应用程序对GPU并行运算的支持,相信未来GPU重要性超过CPU也并非天方夜谭。 NVIDIA方面,上代G8X图形核心就采用了先进的统一渲染架构,拥有多达128个流处理器,引入几何着色器功能……这一切简直就是专为GPGPU运算而生!为了最大程度的发挥几何着色器的威力,G80还专门设置了一个名为流输出层(Stream Output State)的部件来配合它使用。这个层的功能是将Vertex Shader和Pixel Shader处理完成的数据输出给用户,由用户进行处理后再反馈给流水线继续处理。它可以直接读写本地显存。我们可以通过Stream Out把GPU拆成两段,只利用前面的一段几何运算单元。对某些科学研究,也可以通过stream out来利用GPU的数学运算能力,等于在CPU之外又平白多得了一个数学协处理器。我们可以这样理解G80图形核心的几何着色器和Stream Out单元:GS提供了改变图形数量的能力,Stream out提供了硬件Multi-pass的支持。可以预见,今后围绕这些全新的功能,又会有一批新的GPU通用计算程序出台。 GeForce GTX 280的推出,再次把并行运算带到了新的高度。从GeForce GTX 280的并行计算架构来看,与图形运算最大的区别在于,顶部省掉了专为图形处理的几何着色器(Geometry Shader)、Vertex Shader和Pixel Shader单元,取而代之的是一个基于硬件的线程管理器在顶部通过TPCs管理调度全部的线程。也就是说全部的线程都是由硬件管理调度的,而且在每个SM(流处理器组)里面都包含了一个本地高速16K的缓存,便于数据的交换。在架构的底部去掉了跟图形有关的ROPs(光栅化引擎),但仍然保留了tex L2缓存与显存接口,用于数据与显存间的交换。而且额外增加了一个Atomic单元,用于处理器数据间的冲突。 GeForce GTX 280的统一架构还提供了2种不同的处理器类型,例如,对于整个TPCs来说,它的构造是一个MIMD(多指令流多数据流)模型,这是一种全面的并行处理,典型的是多处理机。而对于内部的SMs来说,是一个SIMT(单指令多线程)结构。SIMT在纯SIMD(单指令多)设计的性能和编程应用性上都有所提高。除此之外,从程序员的角度来看, 由于采用硬件方面管理,SIMT还允许每个线程采用自己独立的路径和分支,所以没有必要手动管理分支内部的矢量宽度。 上代产品不支持双精度的问题也得到了解决,GeForce GTX 280支持双精度浮点运算,符合IEEE 754精度规范。
|
正在阅读:问鼎显卡性能之王!NV旗舰GTX280全球同步首发问鼎显卡性能之王!NV旗舰GTX280全球同步首发
2008-06-16 22:53
出处:PConline原创
责任编辑:luoqi
键盘也能翻页,试试“← →”键