全面升級(jí)帶來性能暴漲 Ampere架構(gòu)新特性看這里
【PConline雜談】隨著RTX3080顯卡性能的提升,可以透露更多關(guān)于NVIDIAAmpere架構(gòu)和RTX30系列顯卡的信息 。今天,我們將根據(jù)我們的實(shí)測(cè)和官方信息,與您一起分析新架構(gòu)顯卡性能飆升的秘訣 。
全新的SM單元設(shè)計(jì)、升級(jí)后的TensorCore、RTCore、8nm工藝以及NVIDIAAmpere架構(gòu)上的GDDR6X內(nèi)存,為RTX30系列顯卡帶來了驚人的性能提升,而面向未來的PCIe4.0、HDMI2.1、RTXIO、Reflex等新特性,為NVIDIA下一階段的發(fā)展奠定了良好的基礎(chǔ) 。
SM單元再優(yōu)化,CUDA核心翻倍帶動(dòng)性能暴漲
RTX3090的性能是TITANRTX的1.5倍,RTX3080的性能是RTX2080的2倍,RTX3070的性能略高于RTX2080 Ti和RTX2070的1.6倍 。
CUDA核心數(shù)的計(jì)算方法一直是一個(gè)SM模塊下的FP32算術(shù)單元數(shù) 。按照原來的定義方法,一套完整的INT(整數(shù)運(yùn)算單元)FP(浮點(diǎn)運(yùn)算單元)組合需要被視為一個(gè)處理器單元,但是在目前的應(yīng)用場(chǎng)景下,絕大多數(shù)運(yùn)算(比如游戲計(jì)算)主要考察的是FP32單元的性能.
Turing架構(gòu)(左)和Ampere架構(gòu)(右)SM單元示意圖
所以老黃從費(fèi)米架構(gòu)開始,從直接用FP32單元=CUDA核心這樣的計(jì)算方式,.就開始使用了,以圖靈為例,每個(gè)SM單元包含64個(gè)CUDA核,看上圖中帶有FP32的網(wǎng)格就可以統(tǒng)計(jì)出64個(gè)FP32(4x16)單元 。在這一代NVIDIAAmpere架構(gòu)之后,雖然整體非布局結(jié)構(gòu)類似于圖靈,但中間一組數(shù)據(jù)路徑仍然是全FP32單元設(shè)計(jì),但左邊的獨(dú)立INT32單元數(shù)據(jù)路徑則變成“FP32+INT32”單元.
每組獨(dú)立的FP32單元包含16組FP32 CUDA內(nèi)核,每個(gè)時(shí)鐘周期可執(zhí)行16條FP32指令,而另一條數(shù)據(jù)路徑包含16個(gè)FP32和16個(gè)INT32內(nèi)核,每個(gè)時(shí)鐘周期仍可執(zhí)行多達(dá)16條FP32指令 。在這種設(shè)計(jì)下,每個(gè)SM單元中的分區(qū)可以選擇每個(gè)時(shí)鐘周期執(zhí)行32條FP32指令或16條FP32和16條INT32指令 。
這意味著在全新的安培架構(gòu)中,一個(gè)SM單元每個(gè)時(shí)鐘周期最多可以執(zhí)行128條FP32指令,是圖靈架構(gòu)的兩倍 。同時(shí)每時(shí)鐘周期可執(zhí)行64條FP32指令和64條INT32指令,兼顧了性能和通用性 。
RTX3080核心示意圖,擁有68組SM單元
按照FP32臺(tái)=CUDA核心數(shù)的計(jì)算方法,配備RTX3080的68組SM機(jī)組中有68*128 FP32臺(tái)=8704 FP32臺(tái),與官方標(biāo)稱CUDA核心數(shù)一致 。
但這種方式帶來的CUDA核心的“翻倍”并不直接意味著Ampere架構(gòu)可以憑借“堆核”將性能翻倍,因?yàn)樵谶@種設(shè)計(jì)下,在執(zhí)行純FP32計(jì)算時(shí)只能直接將性能翻倍(比如“挖礦”的性能幾乎翻倍) 。
在人們比較關(guān)注的游戲性能等實(shí)際應(yīng)用中,雖然FP32單元會(huì)被調(diào)動(dòng)更多(浮點(diǎn)運(yùn)算),但也需要調(diào)用INT32(整數(shù)預(yù)算)等其他單元的各種運(yùn)算,所以在游戲中幾乎不可能實(shí)現(xiàn)性能的雙提升 。
在NVIDIA官網(wǎng)對(duì)Ampere架構(gòu)的簡(jiǎn)要介紹中,新的SM單元帶來了“2xFP32吞吐量”,而不是直接標(biāo)注兩倍的FP32單元數(shù)量,考慮到字面意思會(huì)被曲解 。畢竟,在這種架構(gòu)下,只要執(zhí)行純浮點(diǎn)運(yùn)算,性能就有可能翻倍 。
雖然這種結(jié)構(gòu)無法直接將性能翻倍,但整體計(jì)算效率的提升是實(shí)實(shí)在在的,這也是NVIDIAAmpereGPU在實(shí)際應(yīng)用場(chǎng)景中能夠達(dá)到遠(yuǎn)圖靈架構(gòu)性能的核心原因之一 。
TensorCore與RTCore齊升級(jí),4K+光追無壓力
光線追蹤和度學(xué)習(xí)超級(jí)采樣(DLSS)作為RTX20系列顯卡的兩大主要新技術(shù),共同將游戲的畫質(zhì)和性能提升到了一個(gè)新的維度 。
RTCore主要影響實(shí)時(shí)光學(xué)跟蹤性能 。基于圖靈架構(gòu)的第一代RTCore可提供高達(dá)34T的RT性能,而DLSS技術(shù)的處理能力主要由TensorCore決定 。圖靈可提供高達(dá)89T的Tensor性能,而傳統(tǒng)SM單元提供11T的FP32計(jì)算能力 。
Turing架構(gòu)渲染時(shí)間(RTX2080
Super)專門的光追單元可以大幅提升實(shí)時(shí)光線渲染能力,在Turing架構(gòu)的RTX 2080 Super中,渲染同一演示圖像時(shí)使用傳統(tǒng)著色器需要51ms,使用RT Core渲染一幀圖像所需的時(shí)間僅為19ms,渲染速度提升了2.68倍,而在打開DLSS后,更是渲染速度縮短至13ms,性能表現(xiàn)進(jìn)一步提高,這兩項(xiàng)技術(shù)也為游戲廠商們推出畫面表現(xiàn)更出色的游戲打下基礎(chǔ) 。
不過在帶來比傳統(tǒng)的遠(yuǎn)超光柵化渲染的光線效果的同時(shí),也對(duì)顯卡的性能提出了嚴(yán)峻的考驗(yàn),即便有DLSS技術(shù)的加持,這一代的光追游戲始終差點(diǎn)意思,特別在2K甚至4K等高分辨率下,要么為了流暢關(guān)閉光追效果,要么為了光追效果忍受幀數(shù)下降 。
而來到NVIDIA Ampere架構(gòu)中,這三種單元的性能都獲得了顯著提升,SM單元的FP32計(jì)算性能提升至30T,提升幅度達(dá)到2.7倍;然后是RT Core的RT性能提升至58T,提升幅度是1.7倍;最后是Tensor Core的Tensor性能提升至238T,提升幅度更是高達(dá)2.67倍 。
NVIDIA Ampere渲染時(shí)間(RTX 3080)
硬件上的升級(jí)帶來的也是渲染性能的全面提高,在同樣使用RT Core+Tensor Core進(jìn)行渲染的情況下,RTX 2080 Super需要13ms,而RTX 3080可以將時(shí)間縮小至7.5ms,而通過全新的并行處理技術(shù)優(yōu)化,SM、RT Core與Tensor Core三大單元可以同時(shí)工作,渲染時(shí)間更是可以縮短至6.7ms,對(duì)比RTX 2080 Super提升高達(dá)94% 。
而通過游戲?qū)崪y(cè)可知,RTX 3080已經(jīng)能在絕大部分游戲中,滿足4K分辨率+光線追蹤效果拉滿的條件下,維持60FPS以上幀數(shù)的條件,這也意味著,RTX 30系列已經(jīng)實(shí)現(xiàn)從“能玩”到“可以玩”4K光追游戲的跨越 。
全新8nm工藝加成,芯片整體效能激增
跟競(jìng)爭(zhēng)對(duì)手AMD近年來在制程工藝的大動(dòng)作不同(從格羅方德的12nm直接提升至臺(tái)積電7nm),NVIDIA近年來的工藝提升可謂非常“低調(diào)”,從Pascal(10系列顯卡)的臺(tái)積電16nm工藝到Turing(20系列顯卡)的12nm FFN工藝(實(shí)際上算是16nm的改良版),制程上的提升并沒有它們的性能提升來的激進(jìn) 。
雖然NVIDIA要在Ampere架構(gòu)上升級(jí)制程工藝基本是早已被確認(rèn),5月份發(fā)布GA100核心也使用上了全新的臺(tái)積電 7nm工藝,在RTX 30系列顯卡正式發(fā)布前,大家都以為他們將繼續(xù)采用這一工藝,而NVIDIA卻在發(fā)布會(huì)上官宣了RTX 30顯卡將使用三星的8nm工藝 。
這一工藝雖然是在三星10nm工藝的基礎(chǔ)上改良而來,但是卻為Ampere架構(gòu)的效能提升立下了汗馬功勞,同時(shí)也不得不佩服NVIDIA的芯片設(shè)計(jì)能力 。
圖片來源igor's LAB
采用12nm FFN工藝的RTX 2080Ti(TU102核心)在764mm2的芯片面積內(nèi)裝入了186億個(gè)晶體管,而這一代的RTX 3080(GA102核心)卻能在628mm2的芯片面積內(nèi)塞入了280億個(gè)晶體管,密度提升幾乎翻倍,但稍遜于采用臺(tái)積電7nm工藝的GA100核心(在828mm2的芯片面積下塞入了540億個(gè)晶體管).
具體密度上,7nm GA100的6521萬個(gè)/mm2>8nm GA102的4458萬個(gè)/mm2>12nm的TU 102的2434萬個(gè)/mm2,三種工藝帶來的密度差異還是比較明顯的,雖然RTX 30系列沒有用上7nm工藝,但是三星8nm工藝對(duì)比臺(tái)積電12nm FFN工藝帶來的提升還是非常顯著的 。
NVIDIA最終選擇三星8nm工藝可能也有運(yùn)行頻率上的考量,RTX 3080在擁有比RTX 2080Ti翻倍的CUDA核心數(shù)的情況下,仍能獲得更高的Boost核心頻率,而目前的7nm工藝可能還沒法做到這一點(diǎn),用在超算卡的GA 100則不需要太高的運(yùn)行頻率,此外,不選擇臺(tái)積電7nm工藝可能也有產(chǎn)能方面的考量 。
制程工藝的升級(jí)還帶來了能效比方便的提升,NVIDIA官方宣稱在同樣的60FPS幀率時(shí),Ampere架構(gòu)顯卡的能耗比可以達(dá)到Turing架構(gòu)顯卡的1.9倍,要實(shí)現(xiàn)同樣的性能表現(xiàn),前者只需120W多點(diǎn)的功耗,而后者則要240W的功耗,并且前者的還溫度低了3°C,噪音也減少了2dB,這個(gè)提升還是非常可觀的 。
GDDR6X顯存加持,為極致性能保駕護(hù)航
RTX 3090和RTX 3080用上了全新的全新的GDDR6X顯存,這也是RTX 30顯卡的性能表現(xiàn)得到大幅提升的重要因素之一,特別是在高分辨率、高光追特效等應(yīng)用場(chǎng)景下,顯存的容量和帶寬都很容易成為顯卡性能的瓶頸 。
尤其是在發(fā)布會(huì)演示的8K@60Hz+全光追特效這種極限應(yīng)用場(chǎng)景下,性能更加強(qiáng)悍的GDDR6X顯存可以讓Ampere架構(gòu)處理器更好地釋放性能 。
GDDR6X除了在GDDR6對(duì)運(yùn)行頻率進(jìn)行超頻,最重要的改進(jìn)就是首次在顯存上使用了PAM4編碼 。
相比傳統(tǒng)的“NRZ”編碼方式,PAM4編碼可以讓顯卡在每個(gè)時(shí)鐘周期內(nèi)傳輸更多數(shù)據(jù)(從原來的每個(gè)時(shí)鐘周期發(fā)送兩位二進(jìn)制數(shù)據(jù),升級(jí)為每個(gè)時(shí)鐘周期發(fā)送四位二進(jìn)制數(shù)據(jù)),這也讓GDDR6X的最大顯存頻率從GDDR6的16Gb/s提升到21Gb/s,也擁有超過1TB/s(1050MB/s)的理論顯存帶寬上限,這個(gè)表現(xiàn)已經(jīng)達(dá)到HBM2的1TB/s帶寬的水平 。
而在RTX 30系列的實(shí)際應(yīng)用上,目前最強(qiáng)的RTX 3090擁有19.5Gb/s的顯存頻率,顯存帶寬也達(dá)到936Gb/s,對(duì)比RTX 2080 Ti上的GDDR6帶寬(616Gb/s)更是提高了52% 。
GDDR6X顯存除了能在性能上比肩HBM2的水平,也可以在同樣的頻率下實(shí)現(xiàn)更高的顯存帶寬,進(jìn)而降低GDDR6X的成本和能耗,未來應(yīng)該還會(huì)下放到更多消費(fèi)級(jí)顯卡上 。
PCIe 4.0+RTX IO 面向未來的新特性
除了上面提到的一些直接給RTX 30系列顯卡帶來性能提升的特性,NVIDIA Ampere架構(gòu)還擁有許多面向未來的新特新,這些新特新目前可能沒法給消費(fèi)者提供直觀的使用體驗(yàn),卻代表著顯卡市場(chǎng)未來的潛在發(fā)展方向 。
首先就是在AMD平臺(tái)上已經(jīng)應(yīng)用多時(shí)的PCIe4.0,雖然在去年的RX 5000系列已經(jīng)率先應(yīng)用在顯卡領(lǐng)域,不過該系列的性能表現(xiàn)完全用不上PCIe4.0x16的帶寬,AMD這邊也沒有推出特定的功能來利用這一優(yōu)勢(shì) 。
而NVIDIA Ampere架構(gòu)列在加入對(duì)PCIe4.0的支持后,雖然目前的RTX 30系列顯卡在理論性能上仍不能跑滿通道帶寬,在實(shí)測(cè)環(huán)節(jié)中跟PCIe3.0對(duì)比也沒有性能上的差距,但是NVIDIA卻專門準(zhǔn)備了RTX IO技術(shù)來最大化利用PCIe4.0的超大帶寬 。
在傳統(tǒng)的運(yùn)行方式中,顯卡要渲染圖像,需要經(jīng)過如圖上復(fù)雜的路徑:GPU需要通過PCIe通道與CPU進(jìn)行通訊,并且通過CPU將內(nèi)存中的文件傳輸?shù)斤@存上,再進(jìn)行讀取和渲染,而內(nèi)存中的游戲文件,也要經(jīng)過CPU從PCIe通道另一端的硬盤進(jìn)行讀取,數(shù)據(jù)要經(jīng)歷硬盤—>PCIe—>CPU—>內(nèi)存—>CPU—>PCIe-—>GPU-—>顯存的復(fù)雜流程 。
這個(gè)過程頻繁調(diào)用CPU與內(nèi)存,整體效率也不夠高,而且由于硬件的木桶效應(yīng),整個(gè)流程中的硬件都有機(jī)會(huì)造成性能瓶頸,而且不能最大化利用PCIe通道的帶寬 。
而NVIDA的RTX IO技術(shù),可以讓GPU直接從走PCIe通道的硬盤中直接調(diào)用數(shù)據(jù),既節(jié)省了CPU和內(nèi)存的占用,也大幅提高了傳輸效率,可以更好地發(fā)揮GPU和顯存的性能,搭配PCIe4.0通道的超高帶寬,可以最大化高速PCIe4.0硬盤和GPU的性能表現(xiàn) 。
從NVIDIA官方提供的展示DEMO來看,RTX IO技術(shù)帶來的傳輸效率提升非常明顯,對(duì)比傳統(tǒng)模式下使用PCIe 4.0 SSD和24核線程撕裂者的配置,RTX IO的加載時(shí)間只需1.5秒,而前者最快也要5秒,這個(gè)表現(xiàn)讓它具備相當(dāng)出色的應(yīng)用前景 。
不過該技術(shù)目前還處于初始階段,未來也得像DLSS、光追技術(shù)一樣需要游戲獨(dú)立研發(fā)支持,NVIDA這邊也得花費(fèi)不少成本才能完成研發(fā)和大規(guī)模推廣
HDMI 2.1:為8K游戲鋪路
采用NVIDIA Ampere架構(gòu)的RTX 30系列顯卡還配備了最新的HDMI2.1顯示出書接口,這一接口專門為8K以上的畫面?zhèn)鬏敹O(shè)計(jì),傳輸帶寬從HDMI2.0的18Gbps提升到48Gbps,提升幅度達(dá)到2.67倍,最大可傳輸10K@120FPS的視頻訊號(hào),而且能完美支持HDR、增強(qiáng)音頻回程通道eARC、可變刷新率VRR、快速幀傳輸QFT、自動(dòng)低延遲模式ALLM等特性 。
不過目前要享受8K游戲的魅力,除了得擁有該接口外,還需要用上RTX 3090以上級(jí)別顯卡、HDMI 2.1的專用線纜和支持HDMI 2.1接口的8K顯示器,短期內(nèi)該接口依然會(huì)是為土豪準(zhǔn)備的玩意 。
NVIDIA Reflex:決勝分毫,提升電競(jìng)表現(xiàn)
NVIDIA Reflex是一個(gè)為降低游戲顯示延遲的技術(shù),該技術(shù)融合GPU和游戲優(yōu)化,通過硬件和軟件的結(jié)合動(dòng)態(tài)降低系統(tǒng)延遲,優(yōu)化的核心精簡(jiǎn)整個(gè)畫面輸出流程 。
在傳統(tǒng)的輸出流程中,鼠標(biāo)、鍵盤和手柄等輸入設(shè)備發(fā)送信號(hào)后,經(jīng)由CPU處理后,需要輸入到渲染隊(duì)列后并由GPU執(zhí)行渲染,最后再由GOU輸出到顯示器中,這個(gè)過程中,外設(shè)輸入、PC內(nèi)部處理和顯示器輸出都會(huì)有一定的延遲,NVIDIA Reflex主要是對(duì)PC內(nèi)部處理的部分進(jìn)行精簡(jiǎn) 。
該技術(shù)直接去掉了交由渲染隊(duì)列等待的過程,直接向CPU處理過后的數(shù)據(jù)交由GPU即時(shí)進(jìn)行處理,除了提升傳輸效率外還釋放了CPU的負(fù)載,降低延遲的同時(shí)也減少了對(duì)CPU資源的消耗 。
【全面升級(jí)帶來性能暴漲 Ampere架構(gòu)新特性看這里】在各項(xiàng)熱門游戲中,開啟NVIDIA Reflex功能可以有效降低系統(tǒng)延遲,這個(gè)提升幅度對(duì)游戲玩家,尤其是追求極致響應(yīng)速度的電競(jìng)選手來說非常重要,可以有效提升他們?cè)陔姼?jìng)比賽中的響應(yīng)表現(xiàn) 。
影馳RTX 30系列顯卡:散熱全面升級(jí) 帶來極致游戲體驗(yàn)
NVIDIA Ampere架構(gòu)各項(xiàng)新特性為RTX 30系列顯卡帶來了非常驚艷的性能表現(xiàn),影馳作為NVIDIA的核心AIC合作伙伴,也推出了全面覆蓋RTX 3090/3080/3070的GAMER、星曜、金屬大師、將系列產(chǎn)品 。
在完整享受NVIDIA Ampere架構(gòu)所有新特性的同時(shí),影馳RTX30系列散熱器的設(shè)計(jì)全面升級(jí),更加契合每個(gè)系列特性的設(shè)計(jì)語言,塑造完全不同以往的全新體驗(yàn),搭配更加優(yōu)秀的整卡調(diào)教及優(yōu)化,性能強(qiáng)悍穩(wěn)定無憂,為玩家打造真正的史上最強(qiáng)超級(jí)裝備,準(zhǔn)備入手RTX 30系列顯卡的朋友可不要錯(cuò)過了 。
推薦閱讀
- 為你介紹最全面藥方 中醫(yī)治療糖尿病足
- 三綱五常指的是什么?
- 喝咖啡可以減少肥胖帶來的不良影響
- 缺硒會(huì)給身體帶來哪些危害?
- 夫妻分居會(huì)帶來什么樣的影響
- 肚子長(zhǎng)肥了的危害 腹部肥胖帶來不好的影響
- 長(zhǎng)了妊娠紋怎么辦,美姿秀全面解答
- 有“職場(chǎng)恐高”星座
- 報(bào)考點(diǎn)是什么意思
- 且行且珍惜是什么意思
