1引言&规格对比&显卡外观赏析
引言
RTX40系显卡发布已经有段时日了,但在售的一直是RTX4090和RTX4080这样的旗舰卡,大多数玩家所期待的甜品卡一直没有出现。现在老黄终于推出了全新的RTX4070Ti显卡,得益于AdaLovelace架构的创新和DLSS3黑科技,RTX4070Ti降低功耗的同时,性能能跟RTX3090Ti掰掰手腕,毫无疑问,这就是目前PC玩家的绝佳之选。
今天的主角是影驰GeForceRTX4070Ti星曜OC,作为影驰旗下的三大系列之一,星曜系列一直主打高颜值高性能,这一代也不例外,纯白色的透明亚克力外壳让DIY玩家能够天马行空的创作,钻切工艺加持的棱镜设计让ARGB也能玩出花来。当然极致的性能才是玩家所关注的重点,下面随笔者一起探究RTX4070Ti究竟有怎样的表现吧。
*下文“影驰GeForceRTX4070Ti星曜OC”简称为“影驰RTX4070Ti星曜OC”
规格对比
开始测试前,先让我们了解一下影驰RTX4070Ti星曜OC。其采用的是AD104-400核心,TSMC4N工艺制造,芯片面积为295平方毫米,别看它面积比上代的GA104-400核心小,但它的晶体管密度达到了358亿,晶体管数量相比较于上一代产品提升非常明显,近乎翻倍,而这一代的核心还进一步提升了频率,因此能带来更好的性能表现。
其他参数方面,影驰RTX4070Ti星曜OC上的AD104核心标配7680个CUDA,60个第三代RTCores,240个第四代TensorCores,并且用上了12GB的GDDR6X显存,相比上代的提升还是很明显的,毕竟大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。
目前影驰RTX4070Ti星曜OC显卡上配备的这颗AD104-400核心可以算是完整的AD104核心了。完整的AD104核心应该包括5个GPC(图形处理集群)、30个TPC(纹理处理集群)、60个SM(流式多处理器)以及一个带有6个32Bit显存控制器的192Bit显存带宽。
不过以老黄精准的刀法来看,RTX4070Ti之下应该还有一张RTX4070,笔者猜测,RTX4070显卡应该还会延用AD104核心,不过会在RTX4070Ti的基础上进行阉割,衍生出AD104-300核心,性能会稍逊一筹,不过价格也会有一定优势。
外观赏析:影驰 GeForce RTX 4070 Ti 星曜 OC
在一众RTX4070Ti中,影驰RTX4070Ti星曜OC的包装盒无疑是其中最抢眼的存在,大大的二次元战姬形象加上彩色镀膜工艺,无论从什么角度看这款显卡都散发着独特的色彩。
包装盒上还特地标注了影驰RTX4070Ti星曜OC支持三年质保以及个人送保,玩家可以放心购买。
包装盒的背面则是影驰RTX4070Ti星曜OC的产品特色,如全新升级的星卓Ⅲ散热系统、ARGB灯效展示、黑科技DLSS3以及8K多屏输出支持等等。
包装盒内的配件也是应有尽有,内附5VARGB同步线、显卡支架同步线以及星曜定制的显卡支架等。
正面外观是经典的纯白美学设计,整体设计采用钻石切割工艺,通体透露出宝石般晶莹的白色,颜值绝对是一众显卡中的第一梯队。
仔细看,显卡的外壳上是由棱镜般的多边形组合而成,仿佛钻石的表面。外壳下是白色面板,用户可以在白色面板上肆意创作,打造专属于自己的影驰RTX4070Ti星曜OC。
正面是三把102mm的散热风扇,透明的风扇设计在其他品牌的显卡上并不常见,但影驰RTX4070Ti星曜OC的透明风扇能够在灯光亮起时将RGB灯效映射到水晶外壳之上,给人前所未有的灯效视觉享受。
放大看细节,每个散热风扇都有一圈水晶外壳包边,并且还可以看到风扇的扇叶经过特殊优化,表面有磨砂的质感,11片专属静霜叶片保证了风量的充足。
钻切的棱镜花边让显卡在点亮后能够大放异彩,多重的RGB折射效果让显卡的颜值更上一层楼。
玩家也可通过影驰官方的魔盘XtremeTuner工具自定义灯光效果,多种灯效配合钻切工艺的透明外壳,打造专属于你的高颜值显卡。
影驰RTX4070Ti星曜OC的背板以白色为主,几乎全白的设计,与正面遥相呼应,一体感更强,同时金属材质的背板也增加了显卡本身的刚性,防止PCB弯折。
金属背板的末端是大面积的镂空,旁边还有多如繁星的镂空装饰,有颜的同时,也能够增强散热表现。
显卡顶部除了常规的”GEFORCERTX”字样外,还有一块不起眼的Logo灯牌,不点亮时你甚至注意不到它的存在。
一旦通电点亮后,映入眼帘的便是正中间的信仰Logo“BOOMSTAR”,多层折射镜面设计,在ARGB灯效下光彩夺目。
就连星曜定制的显卡支架也用上了同款钻切镜面设计,并且还支持RGB同步灯效,让RGB照亮你的整个机箱。
不得不说影驰RTX4070Ti星曜OC纯白的机身,配合多彩的RGB灯效确实适合白色主题装机,璀璨夺目的RGB在白色背景的衬托下别有一番韵味。
顶部的Logo灯牌除了可以展示炫酷的RGB灯效,还自带检测功能,黄灯表示显卡外接供电异常,而红灯则表示主板异常,玩家排障更直观。
显卡底部就不像顶部那么“丰富多彩”了,底部为大面积的鳍片出风口,有利于内部空气的快速流动,降低显卡核心温度。
显卡底部还可以看到显卡的PCIe金手指,标准的PCIe4.0x16速率,它可以为显卡提供更快的传输速度。
显卡供电用的是全新的12VHPWR供电接口,使用一根12VHPWR的电源线就可达到供电需求。相比之前的8Pin接口,安装确实更加方便快捷。
如果使用的是ATX2.0标准的电源,那可以使用包装盒内随机附赠的3*8Pin转16Pin的转接线,也能满足这张影驰RTX4070Ti星曜OC的供电要求。
视频输出接口方面配备了3个DP1.4a和1个HDMI2.1,支持4屏显示或最高8K@60Hz的超清输出。
影驰RTX4070Ti星曜OC虽然定位中端甜品显卡,但它的厚度依旧不减,从侧面就可以看出其是3槽卡,足足有63mm厚,全长354mm,这对小体积的机箱会是不小的挑战。
2显卡拆解:影驰 GeForce RTX 4070 Ti 星曜 OC
显卡拆解:影驰 GeForce RTX 4070 Ti 星曜 OC
拆解影驰RTX4070Ti星曜OC还是比较简单的,三下五除二就可以分离PCB与硕大的散热系统了。
首先看看影驰RTX4070Ti星曜OC的PCB,一眼就能看出此次影驰采用的是自研非公版设计,8层高规格工艺打造,并且在设计上影驰也加入了一些自己的理解和创新,镂空PCB设计既美观,又能够帮助显卡散热,展现了一线大厂的设计实力。
PCB的背面相比正面密密麻麻的排布就显得整洁许多,背面基本上是各类控制芯片。不过从背面依然可以看到核心上安排了POSCAP(导电聚合物钽电容),有助于提升显卡的电气性能。
视角回到PCB的正面,正中央镶嵌着本次的主角——AD104-400-A1核心,TSMC4N工艺打造,295mm2的芯片面积内塞下了7680个CUDA核心,这让影驰RTX4070Ti星曜OC在性能上已经可以媲美上代卡皇RTX3090Ti了。
核心的四周被6颗GDDR6X显存包围,颗粒来自美光科技,型号是2GU47D8BZC,单颗显存容量为2GB,6颗显存共组成12GB,相比前代的RTX3070Ti还要高出4GB,这让影驰RTX4070Ti星曜OC有了更多处理复杂项目的能力。
想要驱动这颗满血的AD104核心,供电规模自然不能差,影驰RTX4070Ti星曜OC采用13+3相供电设计,核心供电均被安排在PCB的一测。
而显存供电则安排在显存周围,能够更好的驱动这6颗21Gbps速率的GDDR6X显存。
每相供电都采用了独立的DrMos芯片,来自万国半导体,封装型号为BLN3,实际应为AOS的AOZ5311NQI-03,持续输出电流为55A。
PWM供电芯片则被安排在PCB背面,型号为uP9512R,能够同时管理核心供电及显存供电。
供电接口也换上了最新的12VHPWR,单口就能提供600W的供电能力,用在最高360W的影驰RTX4070Ti星曜OC上属实是有些大材小用了。
PCIe金手指则还是标准的PCIe4.0x16速率,使用前务必确保其接入主板上最高速率的PCIe插槽及开启主板ResizableBAR功能,这样显卡才能够满血释放。
看完了堆料配置,该看看这款显卡的散热如何了,影驰RTX4070Ti星曜OC也用上了星卓III散热系统,待遇已经跟自家的RTX4090、RTX4080一致了。
散热器的中间是大面积的均热板,影驰在均热板上为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热。就连核心处也是厚厚的一层硅脂,可见这个星卓III散热系统真的是下足了功夫做散热。
不仅仅正面的均热板有散热,金属背板上同样安排了导热垫,配合金属导热性强的特性,影驰RTX4070Ti星曜OC的散热效能可以说是拉满了。
整个散热器为两段式结构,除了均热板外,其他部分均被大面积的导流型鳍片覆盖。
另外在鳍片的外框上还新增了一个加强件,用于保护鳍片不变形。
散热鳍片下隐藏着2根Φ8mm+5根Φ6mm的镀镍复合热管,贯穿整个散热器,回流焊接工艺加持保证高效导热。
影驰RTX4070Ti星曜OC还给星卓III散热系统安排了3个102mm的风扇作为主动散热,厚度达20mm,散热效能显著。
每把散热风扇上有11片静霜扇叶,升级优化后不仅进风量更大,还支持智能启停功能,让显卡随时随地能够全力输出。
总的来说,影驰RTX4070Ti星曜OC完全称得上堆料豪华,极致散热。AD104核心配上如此规格的硬件,明显是为超频预留了更多余量。
3测试平台介绍&理论/游戏性能测试
测试平台介绍
测试平台还是老样子,每个硬件都是目前市场上最为顶级的存在,这样我们才可以测试出目前高端显卡在此平台上到底会有何性能表现,也不会为显卡测试带来瓶颈。
显示器也不能输,我们在显示器上选择了爱攻&保时捷联名设计的AGONPD32M,miniLED背光、4K、144Hz一应俱全。只有这样的配置才能让影驰RTX4070Ti星曜OC在2K甚至4K游戏上展现真正实力。
同样的在测试前,我们得先确保一下系统配置是否正确。在GPU-Z中可以看到,影驰RTX4070Ti星曜OC的基础频率为2310MHz,Boost频率为2685MHz,但TGP设定却给到了360W,温度墙也跟RTX4080为同一水平线的88℃,看来影驰给极客玩家预留了充足的超频空间。
另外在使用RTX40系显卡前一定要确认主板的ResizableBAR功能是否开启,这样显卡才能够最大限度的发挥出全部性能。
理论性能测试
理论测试部分我们以3DMark为主,从理论性能上看,影驰RTX4070Ti星曜OC大幅领先RTX3070Ti,领先幅度近50%。性能水平接近RTX3090Ti,这样的表现完全超乎预期,毕竟对手可是上代卡皇!
在3DMarkTimeSpyDX12测试中,影驰RTX4070Ti星曜OC分数达到了22739分,一度超越RTX30系的旗舰卡RTX3090Ti;在FireStrikeDX11测试中也是如此,这张卡在压力更大的FireStrikeExtreme中得分26680,与RTX3090Ti的26636分在同一起跑线。
在GPGPU理论性能测试方面,拥有AdaLovalace架构的RTX40系列显卡在算力上有着较为出色的性能表现,尤其是单精度和双精度浮点运算上,提升幅度是最大的。影驰RTX4070Ti星曜OC相比RTX3090Ti显卡丝毫不虚,甚至部分项目还领先RTX3090Ti2%左右的性能,一半的价格达成RTX3090Ti的性能属实不错。
游戏性能测试
理论性能上,影驰RTX4070Ti星曜OC与RTX3090Ti几乎持平,那游戏性能中能否有RTX3090Ti的同款表现呢?这次我们选择了多款游戏在多种分辨率下进行实测。
1080P分辨率对这张比肩卡皇的影驰RTX4070Ti星曜OC几乎没有压力,游戏性能领先RTX3070Ti足足有46%之多。就算跟RTX3090Ti相比,新架构的优势依旧明显,游戏性能领先10%以上,反应在游戏中就是影驰RTX4070Ti星曜OC的游戏帧数会高出10-20帧左右。
2K分辨率下,影驰RTX4070Ti星曜OC的领先幅度更加明显,对比前代RTX3070Ti,有52%的游戏性能提升,对比RTX3090Ti的话,领先幅度也在10%左右,不过部分游戏领先幅度可以去到25%以上,像《战争机器5》,RTX3090Ti只能跑到176FPS,但影驰RTX4070Ti星曜OC能够在更低的功耗下跑到220FPS,用上这张卡,2K高刷玩3A一点问题没有。
4K分辨率,由于RTX3090Ti有先天大显存的优势,因此性能反超了RTX4070Ti,不过影驰RTX4070Ti星曜OC的游戏性能依旧强势,2.3倍的性能提升让RTX3070Ti望尘莫及。不过值得一提的是影驰RTX4070Ti星曜OC还有DLSS3可用,因此这张卡在4K游戏上还是能够战胜RTX3090Ti的,毕竟DLSS3这种黑科技能够显著提升游戏帧数。
4DLSS 3性能测试
DLSS 3性能测试
要说这一代RTX40系显卡最大的升级就是DLSS3黑科技,DLSS早在RTX20系显卡就已经发布了,其主要是让显卡在不影响画面质量的情况下提升游戏性能,目前DLSS已经更新至3.0版本,相比前代,新增帧生成和NVIDIAReflex技术,据老黄所说,用上DLSS3后可以实现游戏性能的翻倍提升。
3DMarkDLSS3性能测试
DLSS在更新了3.0版本后,游戏帧数有了进一步的提升,因此我们也在3DMark中先测试了DLSS3的理论性能,实测影驰RTX4070Ti星曜OC开启DLSS2的情况下已经可以实现4K80FPS的流畅水平了。开启DLSS3后性能还能提升,2K分辨率下可以满足2K@144Hz的高刷需求,4K分辨率下也有100+FPS的体验。
当然我们也测试了8K分辨率,不过老黄的刀法是真的精准,影驰RTX4070Ti星曜OC在DLSS3下8K也只能跑到54FPS,距离60FPS仅有一步之遥,8K还要靠游戏优化才有可能实现。
《微软模拟飞行》游戏实测
目前支持DLSS3的游戏已经上升至50款,在对硬件要求颇高的《微软模拟飞行》中,影驰RTX4070Ti星曜OC开启DLSS3后对RTX3090Ti简直是降维打击,1080P分辨率下几乎是2倍的帧数提升,2K分辨率下也比RTX3090Ti高出70FPS,达到了175FPS,并且功耗仅186W,比RTX3090Ti动辄400W的功耗低了一半!
在其他几款游戏中也是如此,影驰RTX4070Ti星曜OC在开启DLSS3后,游戏帧数相比RTX3090Ti都有1.5倍左右的提升,并且全程功耗都不会超过300W,用RTX3090Ti50%的功耗实现了RTX3090Ti150%的性能,再想想这张显卡的价格,性价比最高的RTX40系显卡非它莫属。
1080PDLSS性能测试
在1080P分辨率下,影驰RTX4070Ti星曜OC开启DLSS3后,游戏性能提升非常离谱,性能直接是RTX3070Ti的两倍!大部分游戏都能稳定在200+FPS以上,有人可能会问,那跟RTX3090Ti相比如何,这张卡的性能在1080P下依旧领先RTX3090Ti70%!有这样的提升幅度,DLSS3功不可没。
2KDLSS性能测试
2K分辨率下,以影驰RTX4070Ti星曜OC的性能也是毫无压力,不少游戏开启DLSS2时就已经领先RTX3070Ti有50-60帧,开启DLSS3后性能还能更高,领先幅度来到了惊人的100帧以上;很明显这张显卡的对手是RTX3090Ti,影驰RTX4070Ti星曜OC在2K分辨率依旧把RTX3090Ti斩于马下,50%的游戏性能领先让它稳居2K高刷游戏甜品显卡的宝座。
我们也使用影驰RTX4070Ti星曜OC在DLSS2和DLSS3两种模式下测试了多款游戏,从实测结果来看,DLSS3确实有点东西,不少游戏的帧数都有明显提升,其中不乏一些游戏有翻倍的性能提升。像《毁灭全人类2》这款游戏,影驰RTX4070Ti星曜OC在DLSS2下游戏帧数为108FPS,而开启DLSS3后,游戏帧数达到了惊人的274FPS,这已经不是翻倍而是接近3倍的性能提升了!
4KDLSS性能测试
上面我们测试影驰RTX4070Ti星曜OC在DLSS2下是比RTX3090Ti弱的,但是一旦有DLSS3后,这个结果就不一样了,实测大部分游戏在开启DLSS3后都能够跑到100+FPS,不过领先幅度不大,但是降低部分特效,这张显卡还是能够很好的满足4K@144Hz的高刷电竞。
现在大家对影驰RTX4070Ti星曜OC显卡已经有了大致的性能了解,总结就是,在1080P和2K分辨率下,这张卡大杀四方,游戏性能几乎碾压RTX3090Ti,4K分辨率下性能与RTX3090Ti互有胜负,但胜在这张卡有DLSS3,因此整体游戏性能略优于RTX3090Ti。
5创作/专业生产力测试
创作者性能测试
测完了游戏,必不可少的还有创作生产力测试,这里我们选择PugetBench、PCMark10、Blender等多款常见的测试软件,来测试影驰RTX4070Ti星曜OC在日常办公、视频内容生产、专业渲染等方面的性能表现。
首先我们来看看PCMark10Extended项目上各显卡的性能表现如何,可以看到影驰RTX4070Ti星曜OC在游戏这个子项目上与前代的RTX3070Ti拉开了差距,并且已经超越前代卡皇RTX3090Ti,这与我们上面的游戏实测相符。
而在ULProcyon与PugetBench测试中,RTX3090Ti凭借显存带宽和大显存的优势在剪辑项目上反超RTX4070Ti,不过RTX40系显卡还有特殊优化,支持AV1编解码,这是30系显卡所不具备的,后续Adobe全家桶、达芬奇等软件针对Ada架构的40系显卡进行优化后,影驰RTX4070Ti星曜OC的优势会更明显。
专业性能上,影驰RTX4070Ti星曜OC的提升更是惊人,在N卡常用的Blender渲染软件中,影驰RTX4070Ti星曜OC相比RTX3070Ti有68%的性能提升,就算是RTX3090Ti,它依旧领先10%以上,真的是全面吊打RTX3090Ti了。
OC渲染器跟SPEC中的表现也异常出色,对比RTX3070Ti,提升幅度均在1.5倍左右,部分测试项目甚至比RTX3090Ti还要高15%,这明显是ADA架构革新所带来的算力提升。想要提升专业性能的用户不妨考虑一下影驰RTX4070Ti星曜OC,一半的价格即可体验卡皇的性能!
双NVENC编码器专项测试
你以为RTX40系显卡对视频创作的提升仅仅如此吗?其实它还隐藏了一项特殊技能,影驰RTX4070Ti星曜OC内置了双编码器NVENC,它支持时下热门的AV1编码,作为下一代主流的视频编码技术有着自己独特的优势,更快的编码速度和更高质量的流媒体传输性能,让越来越多的剪辑软件和视频网站青睐于它,像我们熟悉的达芬奇、剪映、B站等已经支持AV1编解码,未来AV1将会成为一个新趋势。
我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测同一段素材下,使用影驰RTX4070Ti星曜OC进行AV1编码会比H.265编码快不少;即使同样使用H.265编码,有双编码器的加持下,影驰RTX4070Ti星曜OC的效率也比RTX3090Ti快60%以上。
当然我们上面也提到AV1编码不止导出速度更快,它的文件占用空间也比H.265要小,无论是4K分辨率还是8K分辨率,使用AV1编码后,文件整体大小能够降低25%以上,并且肉眼下几乎没有画质区别,单凭AV1的这些优点,未来将会是AV1的天下,现在装备一张影驰RTX4070Ti星曜OC即可感受最新技术带来的优势。
6功耗&超频&评测总结
功耗与发热
星卓III散热系统的配置大家都有目共睹,虽然影驰RTX4070Ti星曜OC只是一款定位300W,但它的散热系统跟RTX4080几乎是同一规格的,这也让我对这款显卡的功耗和发热情况充满好奇。
在室温25℃的情况下,使用Furmark单烤15分钟后,影驰RTX4070Ti星曜OC的GPU核心运行在2700MHz以上的高频,但此时核心温度仅有62.7℃,显存更是仅有50℃出头,这跟前代RTX3090Ti比起来,简直天壤之别。如果是待机温度,那这代显卡的温度也相当惊人,GPU在待机下31℃,这比CPU还凉快。
采用TSMC4N工艺后的影驰RTX4070Ti星曜OC不单止温度骤降,它的功耗和噪音控制也相当优秀,烤机15分钟,最高功耗仅有286W,比RTX3090Ti低100W以上,要知道这可是一张性能对标RTX3090Ti的卡,这样的表现属实让笔者颇为惊喜。
当然一个Furmark测试并不能代表什么,于是我们利用HWINFO64软件与FrameView软件双重记录多款显卡的功耗表现情况,从图中可以看到影驰RTX4070Ti星曜OC整体功耗控制相当出色,在所有测试场景内近乎没有突破300W,部分项目甚至功耗只有RTX3090Ti的一半,但性能却已经超越前代卡皇。
实测下来,不禁感慨老黄的AdaLovelace架构和TSMC的4N工艺确实有点东西,影驰RTX4070Ti星曜OC无论是理论测试还是生产力创作,甚至是游戏场景都妥妥的吊打前代显卡,让显卡的每瓦性能实打实的提升到了一个新高度。
超频测试
前面在GPU-Z中可以看到影驰RTX4070Ti星曜OC的TGP最高去到了360W,这比其他RTX4070Ti还要高出不少,显然这是给超频预留了充足的空间,那笔者自然是不可能错过这个绝佳的机会,下面一同看看这款显卡的超频潜力究竟有多大吧。
我们使用影驰官方提供的XTREMETUNER魔盘工具对显卡进行超频,这款工具不仅可以解锁GPU核心的电压限制、功耗限制等,还可以自由调节风扇转速,实测这款显卡的散热配置明显是超规格的,因此风扇转速还可以进一步下探,超低的风扇噪音还你舒适的使用体验。
笔者最后成功将影驰RTX4070Ti星曜OC的GPU核心频率提升了250MHz,显存频率提升了500MHz,最终影驰RTX4070Ti星曜OC在3DMark中能够稳定运行在3090MHz下,甚至比自家的老大哥还要高一些,此时TimeSpy测试得分24199,相比默频状态的22739分提高近2000分,超频潜力可见一斑。
评测总结
等了许久,RTX40系显卡终于推出了定位中端的RTX4070Ti显卡,在未发售前都以为RTX4070Ti的性能应该与RTX3080Ti差不多,实测下来只能说老黄的Ada架构与DLSS3功不可没,让这代显卡有着超乎预期的性能表现,不仅专业性能有质的飞跃,游戏性能也让人眼前一亮,惊喜连连。
初上手影驰GeForceRTX4070Ti星曜OC给我留下的深刻印象的莫过于通体白色的设计和时尚前卫的外壳。在上机点亮后,更是被它的RGB灯效所吸引,不得不说影驰在拿捏用户心理这一块相当到位,酷炫的外观无疑是颜值党的最佳选择。
有颜又能打才是影驰GeForceRTX4070Ti星曜OC的核心竞争力,一半的功耗实现RTX3090Ti的性能对30系显卡无疑是降维打击。面向专业创作,RTX4070Ti的性能完全足够,并且功耗更低。如果是游戏玩家,那这张卡就是当代2K游戏神卡,2K分辨率下甚至可以高刷游戏,4K搭配DLSS3也有一战之力,真正的文武双全。
总的来说,如果你想花一半的价钱体验卡皇RTX3090Ti的性能,那影驰GeForceRTX4070Ti星曜OC会是一个不错的选择。仅需300W功耗就能全方位领先RTX3090Ti,这在以前是想都不敢想的,毫无疑问,它就是目前性价比最高的40系显卡。现在影驰GeForceRTX4070Ti星曜OC已经上市,售价7099元,各大电商平台均已开售,感兴趣的话可以去了解一下。
7技术讲解:Ada Lovelace架构
Ada Lovelace架构讲解
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元,以及面向AI推理的TensorCore单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RTCore和三代TensorCore基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代RTCores与第四代TensorCores单元,同时加入众多新颖的黑科技,从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
全新的SM流式多处理器
AdaLovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores(张量核心)、4个TextureUnits(纹理单元)、256KBRegisterFile(寄存器堆)。以及128KBL1数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看AdaLovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForceRTX4070Ti拥有60个SM,7680个CUDA核心,那你也就应该明白它的着色器能力进一步加强,即使比起上一代的卡皇RTX3090Ti显卡,那也是丝毫不虚的。
另外缓存方面AdaLovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128KB的缓存,其次核心的二级缓存进行进行了重新的设计,使得RTX4070Ti配备了48MB二级缓存,相比RTX3070Ti可以说是质的飞跃。
技术讲解:第三代RT Cores 与 第四代Tensor Cores
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。
第三代RTCores
RTCores用于光线追踪加速,第三代RTCores的有效光线追踪计算能力达到191TFLOPS,是上一代产品2.8倍。
在Ampere架构中,第二代RTCores支持边界交叉测试(BoxIntersectiontesting)和三角形交叉测试(TriangleIntersectiontesting)。用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代RTCores增加了两个重要硬件单元:OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine,主要是用于alpha通道的加速,可以将alpha测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些Alpha通道的素材来实现更高效的画面渲染,例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
DisplacedMicro-MeshesEngine
如果说OpacityMicromapEngine加速的是面处理,那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示,在AdaLovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTCores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在AdaLovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时AdaLovelace架构SM中新增了着色器执行重排序(ShaderExecutionReordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代RTCores与第四代TensorCores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用GPU资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代TensorCores
TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎,具有高达1.32petaflops的张量处理性能,超过上一代的5倍。
8技术讲解:DLSS 3
技术讲解:DLSS 3
或者说第四代TensorCores太硬核你不会知道是啥?提升意义在哪?但是TensorCores最经典的应用DLSS你肯定会知道,这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。
https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS2)和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForceRTX显卡都能使用上,NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。
想实现DLSS帧生成可不简单,这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而AdaLovelace架构的光流加速器升级到了第二代,其提供了高达300TeraOPS(TOPS),比安培架构的初代光流加速器(OpticalFlowAcceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS3是建立在DLSS2基础之上的,游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能,所以DLSS3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIAReflex
NVIDIAReflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。
当GeForceRTX40系列显卡和NVIDIAReflex搭配上后,直接达到1440p分辨率360FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布,包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz,而最猛的是ASUSROGSwift360HzPG27AQN,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。
9技术讲解:双NVIDIA编码器
技术讲解:双NVIDIA编码器(NVENC)
GeForceRTX40系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1编码器可将效率提高40%,同时显卡的占用也更低。包括OBSStudio一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容,这样我们做游戏录制也会变得更为轻松。
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。
相关教程
2023-04-14
2023-04-14
2023-05-31
2023-05-29
2023-06-13
2023-05-23
2023-03-14
2023-04-29
2023-02-13
2024-10-23
2024-10-22
2024-10-22
2024-10-21