相关支持产品
GeForce6系列GPU
评选与评价
 
 



 
 
 






































































































































































































































































































 
The GeForce 6 系列GPU
 
为复杂影像提供高性能和高品质
 
NVIDIA® GeForce™ 6系列图形处理单元(GPU)将高品质图像的性能和精度推向更高的层次,允许开发者创造更出众的的实时效果。这些新一代的GPU引入了创新的超标量架构可以支持在一个周期内处理更多操作数,避免了在质量和速度之间的折衷并且大大提升了图形效果的标准。在贯穿整个流水线的完全32位浮点支持下,GeForce 6系列GPU的完整128位颜色给影视效果图象带来了动力。程序员可以工作在更具有存储效率的16位格式,或者当战斗或者场景需要最干净、最高的冲击效果的时候容易地转换到完整精度。
新的NVIDIA高精度动态范围(HPRD)技术是GeForce 6系列架构一部分,它基于Industrial Light & Magic OpenEXRhttp://www.openexr.com)标准,更进一步提升了静态和动态图像品质。具有了NVIDIA HPRD技术后,运动会变得更流畅,纹理细节也会更精细。GeForce 6系列产品还包含了新的旋转栅格(rotated-grid)反锯齿系统可以帮助多边形边沿获得更多的有效次像素覆盖值。这就可以得到更精确的像素颜色表现,使得多边形边沿更清晰、精确和平滑。
 
这个文档展示了NVIDIA GeForce 6系列架构有关它的先进图像质量以及它能够达到的效果和技术的实例等方面的一个概览。
 
以下产品资讯均以GeForce™ 6800 为例
 
超标量设计
 
NVIDIA GeForce 6系列引入了创新的着色器架构可以将每个时钟周期所完成的操作数目加倍(图1以及图2)。每个像素流水线具有两个着色单元在任何特定的周期都给像素操作提供两倍的性能提升。这种性能的提升可以使得许多复杂的计算和像素操作变得可能。最终获得的结果就是在快速运行的高逼真游戏以及其他交互式实时程序中绝佳的视觉效果和新一代的精致的图像。
 
 
图1. 传统的非超标量着色器架构具有一个着色器单元,在每个时钟周期仅可以完成4个操作
 
 
图2. 每款GeForce 6系列图形处理器都具备超标量架构,拥有第二组着色器单元,每个周期能完成两倍的像素操作
 
凭借两组着色器单元,GeForce 6系列体系架构可以支持真正的并行双处理——在不同的着色器单元上同一时间执行两条指令。有些体系架构尝试采用非超标量的单着色器架构来实现单周期双指令执行。这两种体系架构达成方式的区别是非常大的。对于单着色器架构,只有两条指令在同一个着色器单元上执行,并且两条指令必须作用于同一像素或者全字的分量上。而在GeForce 6系列的体系架构上,我们能在像素分量上实现更多的总算术计算吞吐量。在每个周期里,双着色器单元能在每个周期执行4条指令,相当于每个像素能进行高达8个操作。
 
Note: “指令”是指提交给硬件的命令,能对一个像素的多个分量进行操作,并且能实现多操作。“操作数”是指一条指令能完成算术函数。
 
除了增强的吞吐量外,GeForce 6系列架构还增加了编程的灵活性。各个像素分量可以独立地操作,也可以成双、三个一组或者四个一组地进行操作。这种灵活的分量捆绑运算能力为引入了许多新编程技术提供了可能,加速了创造下一代特效所需复杂算术操作的执行速度。
 
 
图3. 传统的架构(左)对NVIDIA超标量架构(右)
 
概括而言,GeForce 6的超标量架构能够每个周期完成高达4条指令,每个像素8次操作。在图三中我们可以看到,传统架构(图的左边)只能支持每个周期每个像素两条指令,并且在像素分量分组操作的灵活性上存在限制。相对而言,NVIDIA的超标量体系架构(图的右边)却能每个周期每个像素执行4条指令,并且在像素分量分组操作上拥有完全的灵活性。
 
全32位浮点处理
 
GeForce架构始终允许游戏开发人员可以为每个画面或者场景选择所需的精度级别。现在选择更简单了,因为全32位浮点精度的性能递减问题已经消除了。
开发人员依然能在优先考虑内存空间利用率的时候使用16位模式, 但是现在他们在更广阔的实时渲染应用范围上能够达成更高品质的画面。用户会赏识并乐意于看到更丰富、更绚丽的画面体验,游戏开发人员能以此抛离其竞争对手。
 
NVIDIA HPDR技术

 

结合NVIDIA HPRD技术,图形画面将会继续向更逼真渲染效果实现大幅度跨越。这种高动态范围渲染让用户能体验逼真的效果和环境,例如太阳光的强烈亮度、如图4中黑暗画面的丰富色彩细节。
Image courtesy of Paul Debevec
 
图4. HDR光照的示例。白光范围非常亮,而下方大理石板的暗部细节依然保持完好
 
在过去,这类型的渲染存在许多壁垒限制。电脑帧缓存是以线性显示的尺度保存不同的色彩强度。另外,标准的每像素32位帧缓存只能提供255个数值来表示色彩范围,是难以反映动态的影像。因此,开发人员必须发展创造解决方案来实现这类型画面——包括在像素着色器程序中使用需要消耗昂贵运算资源的转换(例如RGBE);已经引起注意的消除不兼容的技术(例如动态光照);模拟图形硬件缺乏的功能(例如高精度纹理的滤波)。
 
GeForce 6系列架构提供了NVIDIA HPRD技术,能达成实现强大高动态范围渲染技术的需求。NVIDIA HPRD在着色渲染、混合渲染以及滤波操作的时候都提供了广泛的数据精度,改善包括静态和动态的画面效果。
 
结合NVIDIA HPRD技术,高动态范围渲染就能够高效、漂亮地执行。渲染任务可以分为为三个环节——光传递、光调影射、色彩及伽玛纠正,下面我们逐一介绍。

 

光传递
 
光传递需要几何、贴图映射、光源位置、光辐射率,并且为可视表面的反射光输出一个高动态范围的每像素辐射率值。这个数值可以是任何值,信息存储在能足够表现光照强度值精度和范围的帧缓存里。保留的动态范围越大,就需要越高精度的数据保存下来,我们就能看到更精确地画面结果。
 
NVIDIA HPRD遵循和OpenEXR标准一致的编码方法——SM10e5。这种数据格式包含了1个符号位、10位尾数以及5位指数,用来反映光传递信息。
 
你可以看到,随着e和m值的变化,这种数据格式的表达范围也随之改变。

 

 
Note: 这里的举例是动态范围是12分贝,最大值为65504,最小值2-24。
 
这样的范围和精度是达成精确获取光照传递数据所需的范围和精度。
 
色调映射
 

光照传递相位的输出数据会被映射为二维影像的颜色值和操作。这样的处理被称作色调映射。

色彩和伽马纠正
 

在最后阶段,就是色彩和伽马纠正,把这些色彩数值从一个标准的红、绿蓝“色彩空间”转换为显示器的红、绿、蓝“色彩空间”。另外,伽马纠正会被应用,因此在转换到最终显示设备的处理过程中,需要对色彩强度时的对数微分进行计算

 

人类眼睛对光的相应呈对数关系。事实上,人类的眼睛对较低强度的光更敏感,能看到暗处细节要比更高光照强度处更丰富。伽马纠正的目的就是为了让显示器能正确地再现人类眼睛的这种视觉效果。
 
实现NVIDIA HPRD渲染的GPU需求
 
为了执行这类渲染方式,GPU必须具备浮点精度的着色、混合、滤波以及贴图功能。最后,还必须有能力把这些色彩数据存储起来,因此浮点数据的对数特性能够被保存起来。
 
浮点着色
 
正如前面提及的,32位着色是GeForce 6系列GPU的原生操作模式着色操作能够以最高的速度执行同时保持最高的精度。像物理纠正光照、彩虹色以及表面散射等都能在GeForce 6上以难以匹敌的速度完成绚丽的渲染。
 
浮点混合
 
混合操作是指把之前渲染得像素和给定位置的新近渲染像素进行结合。根据渲染的效果,这些数值会被混合为一个最终的色彩值。更高的精度意味着像素混合的结果更加精确、品质更高。
 
浮点滤波
 
滤波操作是指利用滤波器对像素操作,让场景中的对象看起来更锐利或者更平滑。滤波能用于改进画面移动时视觉效果,例如双线性滤波和三线性滤波。当像素处于狭窄观察角度的时候,滤波同样能让画面品质起到锐化的作用(即各向异性滤波)。其他的浮点滤波效果还包括了色调映射、光辉等,这些都是做高动态范围渲染所要求具备的功能。
 
此外,NVIDIA GeForce 6系列GPU还支持更高的精度级别和16倍的各向异性滤波。
 
浮点贴图
 
贴图操作是指对一个给定的多边形贴上一张纹理。具备浮点贴图功能后,我们就能实现诸如全方位阴影映射、深度视野以及光线追踪等独特的效果。
 
图5的左边没有采用高动态范围。光源强度的亮度差只有100:1。这使得窗口和地面光照的光晕扩散的比较生硬。在图的右面是采用了高动态范围的效果,具备9000:1的亮度差,光照在地面的朦胧变化表现得自然而真实。
 
Image courtesy of © Microsoft
 
图5. 非高动态范围渲染图像(左)对高动态范围渲染图像(右)
存储色彩
 
高动态范围渲染技术的关键一环就是在伽马纠正时映射色彩值的能力。为了保存数值的巨大范围就必须采用某些包含对数的数据格式。
RGB是8位伽马色彩空间,是微软视窗操作系统的标准。sRGB是对应CRT的低存储成本解决方案,在被GeForce硬件所执行。不过sRGB本身存在不足。虽然sRGB提供了一个对数数据表示方式,但是并没有足够的数值表达范围和精度来精确地表现渲染光传递阶段时候的数据。
 
表格1中我们给出了sRGB、OpenEXR的表达范围差别。OpenEXR为光传递等计算提供了相当大的表达范围。不过对于任何存储和映射类型而言(例如那些在用于高动态范围渲染阶段阶段的色调映射和色彩纠正),sRGB是明智的选择。
 
表1. 颜色范围
 



Range
Precision
Storage*
Notes

RGBE

76.8 dB
9-bit log
189.8 Mb
Radiance- compressed 32-bit float

32-Bit TIFF

76.8 dB
24-bit log
759.4 Mb
IEEE-754 32-bit floating point

OpenEXR

12.0 dB
11-bit log
379.7 Mb
ILM-developed 16-bit floating point

e-sRGB 12

4.6 dB
12-bit poly
213.6 Mb
Clamped at [–0.53..1.68]

16-Bit int

4.8 dB
16-bit linear
379.7 Mb
Clamped at [0..1]

sRGB

3.5 dB
8-bit poly
189.8 Mb
Clamped at [0..1]

RGBA

2.4 dB
8-bit linear
189.8 Mb
Clamped at [0..1]

注意:上述的存储信息是基于一张1080p ATSC视频的1600x1200分辨率画面



另外,艺术级的游戏采用了一项名为动态光照的技术,用于各光源的动态范围和反射数据是分别计算并彼此在一个缓存中相加。遗憾的是,sRGB值不能被彼此相加。为了实现这个操作,这些数字会被转换、相加然后转换回sRGB格式。这是基于性能优先的这种方式。如果不采用从另一种格式转换的话,就会产生难看的人工化失真现象
 
NVIDIA HPRD技术解决了高动态范围渲染的难题。它提供了一种摄影棚品质的16位浮点渲染格式用于光传递阶段的存储、混合、着色、贴图以及滤波操作。此外,NVIDIA HPRD技术还允许在色调映射和伽马纠正阶段采用sRGB格式。
 
“对于电脑图形来说,正确地表现肉眼对真实世界感知的大范围色彩和光照一直以来都是巨大的挑战。现在,NVIDIA公司已经完全支持浮点贴图、浮点混合以及Srgb伽马纠正,在高动态范围渲染中再现精确的色彩和光照变得简单易用了。”
Herb Marselas, CEO/Director of Technology
Emogence, LLC
 
 
最让人叫绝的是,NVIDIA HPRD技术是完全基于硬件执行的。无需像素着色器程序编码或者解码。此外,该技术已经在微软DirectX 9.0和OpenGL中获得支持。
 
旋转栅格抗锯齿
 
最新一代的NVIDIA GeForce GPU引入了一种旋转栅格抗锯齿取样算法。基于每个像素的4个样本,这种新的取样方式能以业界领先的性能提供显著增强的色彩精确性。在此之前,每个像素的4个子像素取样点位于一个2x2的正规栅格样板内。透过些微地旋转4个子像素的栅格,这种新的抗锯齿方式就能提供相当于一个4x4菱形栅格的取样信息。在图6种,请注意GeForce 6的子像素模版如何被选转为菱形的。
 
 
图6. 一个GeForce FX像素(左)和一个GeForce 6系列次像素整列(右)
 
旋转栅格方式允许子像素更好地覆盖在水平方向和垂直方向上。在图7中,可以看到GeForce FX架构体系提供了两个垂直值和两个水平值的覆盖面,而GeForce 6的覆盖面提供了4个跨越了水平和垂直子像素位置的值。这更多的覆盖面能为多边形边缘提供更高的色彩精确性。
 
 
图7. GeForce FX像素整列架构(左)和GeForce 6系列的(右)相比显示出水平和垂直方向的取样值
 
想了解更多关于抗锯齿、取样技术的技术细节,请阅读NVIDIA网站上的NVIDIA技术大纲:
“NVIDIA Accuview Technology: High-Resolution Antialiasing Subsystem(TB-00311-001)”
 
视觉特效的新纪元
 
新GeForce 6系列GPU的超标量体系架构,配合原生32位流水线和成像改进,改善了广泛的成像操作和特效的速度和精确性。许多操作终于首次能以实时的方式在应用程序和游戏中得以实现——纹理滤波、高动态范围特效、视野景深、模糊以及16倍各向异性滤波——为PC赋予了生命的气息和电影的真实性。
 
©2004 NVIDIA Corporation
 
图8. GeForce 6系列为顶尖的图形应用程序释放出了无与伦比的逼真效果
 
总结
 
NVIDIA GeForce 6系列为下一代前卫的图形应用提供了前所未有的真实感。高画质下毫不妥协的速度,开发人员能够在整个复杂场景和数字化世界中实现绚烂的视觉特效。
 
革命性创新的NVIDIA HPRD渲染技术,允许以保持浮点精度的着色、贴图、滤波以及混合操作渲染出更高的视觉品质和更独特的效果。旋转栅格抗锯齿技术透过更多的多边形覆盖面,让整体画面品质获得更进一步的提升。
 
总括而言,GeForce 6体系架构提供了一个增强的像素流水线,并且允许在以下领域实现实时的浮点操作:
 
     2D graphics
      2D textures with mipmaps
      Cube maps
      Volume maps
      Shading
      Texture filtering
      Blending
      Filtering
 
表2. GeForce 6系列架构特征
 

GeForce 6系列体系架构特征


Pixel pipelines

16

Superscalar shade Superscalar shader

Yes

Pixel shader operations/pixel

8

Pixel shader operations/clock

128

Pixel shader precision

32 bits

Single texture pixels/clock

16

Dual texture pixels/clock

8

Adaptive anisotropic filtering

Yes

Z-stencil pixels/clock

32
 
 
很快,即使专家也即使花两倍的精力也难以从电影片断中分辨是否电脑产生的画面。凭借超标量体系架构、原生32位流水线以及艺术级的成像能力,NVIDIA GeForce 6系列正在打破达成可视化世界中电影级真实性的最后壁垒。
 

注意

所有 NVIDIA® 设计规范、参考板卡、文件、图纸、诊断信息、列表和其他文档(一并或分别称为“资料”)均“按现状”提供。NVIDIA® 公司不以明示、暗示、法定或其他方式对材料的非侵权性、适销性和适用于任何特定用途做出保证,并明确否认任何此类暗示保证。

我们认为所提供的信息是准确、可靠的。然而,对于由于使用该信息所造成的后果,或者由于其使用可能导致的对第三方专利权或其他权利的任何侵犯,NVIDIA® 公司不承担任何责任。不以暗示或其他方式授予NVIDIA® 公司的任何专利或专利权的任何使用许可。本出版物中述及的规范如有更改,恕不另行通知。本出版物取代并替换以前提供的所有信息。NVIDIA® 公司未将其产品授权用于生命支持装置或系统的重要组件,除非获得NVIDIA® 公司的明确书面认可。

商标

NVIDIA、NVIDIA徽标、ActiveArmor和NVIDIA nForce均为NVIDIA® 公司在美国和其他国家的商标或注册商标。其他公司和产品名称均为其各自所属公司的商标。

版权

©NVIDIA公司,版权所有,2005年。
 




 

版权©1998-2006 骏兆电子有限公司 | 所有技术和产品解释权均归 NVIDIA® 公司所有 | 未经授权 请勿转载 最佳分辨率为 1024*768 版权声明