全面升級(jí)帶來性能暴漲 Ampere架構(gòu)新特性看這里 _新特性

【PConline雜談】隨著RTX3080顯卡性能的提升，可以透露更多關(guān)于NVIDIAAmpere架構(gòu)和RTX30系列顯卡的信息。今天，我們將根據(jù)我們的實(shí)測(cè)和官方信息，與您一起分析新架構(gòu)顯卡性能飆升的秘訣。

全新的SM單元設(shè)計(jì)、升級(jí)后的TensorCore、RTCore、8nm工藝以及NVIDIAAmpere架構(gòu)上的GDDR6X內(nèi)存，為RTX30系列顯卡帶來了驚人的性能提升，而面向未來的PCIe4.0、HDMI2.1、RTXIO、Reflex等新特性，為NVIDIA下一階段的發(fā)展奠定了良好的基礎(chǔ) 。

SM單元再優(yōu)化，CUDA核心翻倍帶動(dòng)性能暴漲

RTX3090的性能是TITANRTX的1.5倍，RTX3080的性能是RTX2080的2倍，RTX3070的性能略高于RTX2080 Ti和RTX2070的1.6倍。

CUDA核心數(shù)的計(jì)算方法一直是一個(gè)SM模塊下的FP32算術(shù)單元數(shù) 。按照原來的定義方法，一套完整的INT(整數(shù)運(yùn)算單元)FP(浮點(diǎn)運(yùn)算單元)組合需要被視為一個(gè)處理器單元，但是在目前的應(yīng)用場(chǎng)景下，絕大多數(shù)運(yùn)算（比如游戲計(jì)算）主要考察的是FP32單元的性能.

Turing架構(gòu)(左)和Ampere架構(gòu)(右)SM單元示意圖

所以老黃從費(fèi)米架構(gòu)開始，從直接用FP32單元=CUDA核心這樣的計(jì)算方式，.就開始使用了，以圖靈為例，每個(gè)SM單元包含64個(gè)CUDA核，看上圖中帶有FP32的網(wǎng)格就可以統(tǒng)計(jì)出64個(gè)FP32(4x16)單元。在這一代NVIDIAAmpere架構(gòu)之后，雖然整體非布局結(jié)構(gòu)類似于圖靈，但中間一組數(shù)據(jù)路徑仍然是全FP32單元設(shè)計(jì)，但左邊的獨(dú)立INT32單元數(shù)據(jù)路徑則變成“FP32+INT32”單元.

每組獨(dú)立的FP32單元包含16組FP32 CUDA內(nèi)核，每個(gè)時(shí)鐘周期可執(zhí)行16條FP32指令，而另一條數(shù)據(jù)路徑包含16個(gè)FP32和16個(gè)INT32內(nèi)核，每個(gè)時(shí)鐘周期仍可執(zhí)行多達(dá)16條FP32指令。在這種設(shè)計(jì)下，每個(gè)SM單元中的分區(qū)可以選擇每個(gè)時(shí)鐘周期執(zhí)行32條FP32指令或16條FP32和16條INT32指令。

這意味著在全新的安培架構(gòu)中，一個(gè)SM單元每個(gè)時(shí)鐘周期最多可以執(zhí)行128條FP32指令，是圖靈架構(gòu)的兩倍。同時(shí)每時(shí)鐘周期可執(zhí)行64條FP32指令和64條INT32指令，兼顧了性能和通用性。

RTX3080核心示意圖，擁有68組SM單元

按照FP32臺(tái)=CUDA核心數(shù)的計(jì)算方法，配備RTX3080的68組SM機(jī)組中有68*128 FP32臺(tái)=8704 FP32臺(tái)，與官方標(biāo)稱CUDA核心數(shù)一致。

但這種方式帶來的CUDA核心的“翻倍”并不直接意味著Ampere架構(gòu)可以憑借“堆核”將性能翻倍，因?yàn)樵谶@種設(shè)計(jì)下，在執(zhí)行純FP32計(jì)算時(shí)只能直接將性能翻倍(比如“挖礦”的性能幾乎翻倍) 。

在人們比較關(guān)注的游戲性能等實(shí)際應(yīng)用中，雖然FP32單元會(huì)被調(diào)動(dòng)更多(浮點(diǎn)運(yùn)算)，但也需要調(diào)用INT32(整數(shù)預(yù)算)等其他單元的各種運(yùn)算，所以在游戲中幾乎不可能實(shí)現(xiàn)性能的雙提升。

在NVIDIA官網(wǎng)對(duì)Ampere架構(gòu)的簡(jiǎn)要介紹中，新的SM單元帶來了“2xFP32吞吐量”，而不是直接標(biāo)注兩倍的FP32單元數(shù)量，考慮到字面意思會(huì)被曲解。畢竟，在這種架構(gòu)下，只要執(zhí)行純浮點(diǎn)運(yùn)算，性能就有可能翻倍。

雖然這種結(jié)構(gòu)無法直接將性能翻倍，但整體計(jì)算效率的提升是實(shí)實(shí)在在的，這也是NVIDIAAmpereGPU在實(shí)際應(yīng)用場(chǎng)景中能夠達(dá)到遠(yuǎn)圖靈架構(gòu)性能的核心原因之一。

TensorCore與RTCore齊升級(jí)，4K+光追無壓力

光線追蹤和度學(xué)習(xí)超級(jí)采樣(DLSS)作為RTX20系列顯卡的兩大主要新技術(shù)，共同將游戲的畫質(zhì)和性能提升到了一個(gè)新的維度。

RTCore主要影響實(shí)時(shí)光學(xué)跟蹤性能。基于圖靈架構(gòu)的第一代RTCore可提供高達(dá)34T的RT性能，而DLSS技術(shù)的處理能力主要由TensorCore決定。圖靈可提供高達(dá)89T的Tensor性能，而傳統(tǒng)SM單元提供11T的FP32計(jì)算能力。

Turing架構(gòu)渲染時(shí)間(RTX2080

Super)

專門的光追單元可以大幅提升實(shí)時(shí)光線渲染能力，在Turing架構(gòu)的RTX 2080 Super中，渲染同一演示圖像時(shí)使用傳統(tǒng)著色器需要51ms，使用RT Core渲染一幀圖像所需的時(shí)間僅為19ms，渲染速度提升了2.68倍，而在打開DLSS后，更是渲染速度縮短至13ms，性能表現(xiàn)進(jìn)一步提高，這兩項(xiàng)技術(shù)也為游戲廠商們推出畫面表現(xiàn)更出色的游戲打下基礎(chǔ) 。

不過在帶來比傳統(tǒng)的遠(yuǎn)超光柵化渲染的光線效果的同時(shí)，也對(duì)顯卡的性能提出了嚴(yán)峻的考驗(yàn)，即便有DLSS技術(shù)的加持，這一代的光追游戲始終差點(diǎn)意思，特別在2K甚至4K等高分辨率下，要么為了流暢關(guān)閉光追效果，要么為了光追效果忍受幀數(shù)下降。

而來到NVIDIA Ampere架構(gòu)中，這三種單元的性能都獲得了顯著提升，SM單元的FP32計(jì)算性能提升至30T，提升幅度達(dá)到2.7倍；然后是RT Core的RT性能提升至58T，提升幅度是1.7倍；最后是Tensor Core的Tensor性能提升至238T，提升幅度更是高達(dá)2.67倍。

NVIDIA Ampere渲染時(shí)間(RTX 3080)

硬件上的升級(jí)帶來的也是渲染性能的全面提高，在同樣使用RT Core+Tensor Core進(jìn)行渲染的情況下，RTX 2080 Super需要13ms，而RTX 3080可以將時(shí)間縮小至7.5ms，而通過全新的并行處理技術(shù)優(yōu)化，SM、RT Core與Tensor Core三大單元可以同時(shí)工作，渲染時(shí)間更是可以縮短至6.7ms，對(duì)比RTX 2080 Super提升高達(dá)94% 。

而通過游戲?qū)崪y(cè)可知，RTX 3080已經(jīng)能在絕大部分游戲中，滿足4K分辨率+光線追蹤效果拉滿的條件下，維持60FPS以上幀數(shù)的條件，這也意味著，RTX 30系列已經(jīng)實(shí)現(xiàn)從“能玩”到“可以玩”4K光追游戲的跨越。

全新8nm工藝加成，芯片整體效能激增

跟競(jìng)爭(zhēng)對(duì)手AMD近年來在制程工藝的大動(dòng)作不同（從格羅方德的12nm直接提升至臺(tái)積電7nm），NVIDIA近年來的工藝提升可謂非常“低調(diào)”，從Pascal（10系列顯卡）的臺(tái)積電16nm工藝到Turing（20系列顯卡）的12nm FFN工藝（實(shí)際上算是16nm的改良版），制程上的提升并沒有它們的性能提升來的激進(jìn) 。

雖然NVIDIA要在Ampere架構(gòu)上升級(jí)制程工藝基本是早已被確認(rèn)，5月份發(fā)布GA100核心也使用上了全新的臺(tái)積電 7nm工藝，在RTX 30系列顯卡正式發(fā)布前，大家都以為他們將繼續(xù)采用這一工藝，而NVIDIA卻在發(fā)布會(huì)上官宣了RTX 30顯卡將使用三星的8nm工藝。

這一工藝雖然是在三星10nm工藝的基礎(chǔ)上改良而來，但是卻為Ampere架構(gòu)的效能提升立下了汗馬功勞，同時(shí)也不得不佩服NVIDIA的芯片設(shè)計(jì)能力。

圖片來源igor's LAB

采用12nm FFN工藝的RTX 2080Ti（TU102核心）在764mm2的芯片面積內(nèi)裝入了186億個(gè)晶體管，而這一代的RTX 3080（GA102核心）卻能在628mm2的芯片面積內(nèi)塞入了280億個(gè)晶體管，密度提升幾乎翻倍，但稍遜于采用臺(tái)積電7nm工藝的GA100核心（在828mm2的芯片面積下塞入了540億個(gè)晶體管）.

具體密度上，7nm GA100的6521萬個(gè)/mm2>8nm GA102的4458萬個(gè)/mm2>12nm的TU 102的2434萬個(gè)/mm2，三種工藝帶來的密度差異還是比較明顯的，雖然RTX 30系列沒有用上7nm工藝，但是三星8nm工藝對(duì)比臺(tái)積電12nm FFN工藝帶來的提升還是非常顯著的。

NVIDIA最終選擇三星8nm工藝可能也有運(yùn)行頻率上的考量，RTX 3080在擁有比RTX 2080Ti翻倍的CUDA核心數(shù)的情況下，仍能獲得更高的Boost核心頻率，而目前的7nm工藝可能還沒法做到這一點(diǎn)，用在超算卡的GA 100則不需要太高的運(yùn)行頻率，此外，不選擇臺(tái)積電7nm工藝可能也有產(chǎn)能方面的考量。

制程工藝的升級(jí)還帶來了能效比方便的提升，NVIDIA官方宣稱在同樣的60FPS幀率時(shí)，Ampere架構(gòu)顯卡的能耗比可以達(dá)到Turing架構(gòu)顯卡的1.9倍，要實(shí)現(xiàn)同樣的性能表現(xiàn)，前者只需120W多點(diǎn)的功耗，而后者則要240W的功耗，并且前者的還溫度低了3°C，噪音也減少了2dB，這個(gè)提升還是非常可觀的。

GDDR6X顯存加持，為極致性能保駕護(hù)航

RTX 3090和RTX 3080用上了全新的全新的GDDR6X顯存，這也是RTX 30顯卡的性能表現(xiàn)得到大幅提升的重要因素之一，特別是在高分辨率、高光追特效等應(yīng)用場(chǎng)景下，顯存的容量和帶寬都很容易成為顯卡性能的瓶頸。

尤其是在發(fā)布會(huì)演示的8K@60Hz+全光追特效這種極限應(yīng)用場(chǎng)景下，性能更加強(qiáng)悍的GDDR6X顯存可以讓Ampere架構(gòu)處理器更好地釋放性能。

GDDR6X除了在GDDR6對(duì)運(yùn)行頻率進(jìn)行超頻，最重要的改進(jìn)就是首次在顯存上使用了PAM4編碼。

相比傳統(tǒng)的“NRZ”編碼方式，PAM4編碼可以讓顯卡在每個(gè)時(shí)鐘周期內(nèi)傳輸更多數(shù)據(jù)（從原來的每個(gè)時(shí)鐘周期發(fā)送兩位二進(jìn)制數(shù)據(jù)，升級(jí)為每個(gè)時(shí)鐘周期發(fā)送四位二進(jìn)制數(shù)據(jù)），這也讓GDDR6X的最大顯存頻率從GDDR6的16Gb/s提升到21Gb/s，也擁有超過1TB/s（1050MB/s）的理論顯存帶寬上限，這個(gè)表現(xiàn)已經(jīng)達(dá)到HBM2的1TB/s帶寬的水平。

而在RTX 30系列的實(shí)際應(yīng)用上，目前最強(qiáng)的RTX 3090擁有19.5Gb/s的顯存頻率，顯存帶寬也達(dá)到936Gb/s，對(duì)比RTX 2080 Ti上的GDDR6帶寬（616Gb/s）更是提高了52% 。

GDDR6X顯存除了能在性能上比肩HBM2的水平，也可以在同樣的頻率下實(shí)現(xiàn)更高的顯存帶寬，進(jìn)而降低GDDR6X的成本和能耗，未來應(yīng)該還會(huì)下放到更多消費(fèi)級(jí)顯卡上。

PCIe 4.0+RTX IO 面向未來的新特性

除了上面提到的一些直接給RTX 30系列顯卡帶來性能提升的特性，NVIDIA Ampere架構(gòu)還擁有許多面向未來的新特新，這些新特新目前可能沒法給消費(fèi)者提供直觀的使用體驗(yàn)，卻代表著顯卡市場(chǎng)未來的潛在發(fā)展方向。

首先就是在AMD平臺(tái)上已經(jīng)應(yīng)用多時(shí)的PCIe4.0，雖然在去年的RX 5000系列已經(jīng)率先應(yīng)用在顯卡領(lǐng)域，不過該系列的性能表現(xiàn)完全用不上PCIe4.0x16的帶寬，AMD這邊也沒有推出特定的功能來利用這一優(yōu)勢(shì) 。

而NVIDIA Ampere架構(gòu)列在加入對(duì)PCIe4.0的支持后，雖然目前的RTX 30系列顯卡在理論性能上仍不能跑滿通道帶寬，在實(shí)測(cè)環(huán)節(jié)中跟PCIe3.0對(duì)比也沒有性能上的差距，但是NVIDIA卻專門準(zhǔn)備了RTX IO技術(shù)來最大化利用PCIe4.0的超大帶寬。

在傳統(tǒng)的運(yùn)行方式中，顯卡要渲染圖像，需要經(jīng)過如圖上復(fù)雜的路徑：GPU需要通過PCIe通道與CPU進(jìn)行通訊，并且通過CPU將內(nèi)存中的文件傳輸?shù)斤@存上，再進(jìn)行讀取和渲染，而內(nèi)存中的游戲文件，也要經(jīng)過CPU從PCIe通道另一端的硬盤進(jìn)行讀取，數(shù)據(jù)要經(jīng)歷硬盤—>PCIe—>CPU—>內(nèi)存—>CPU—>PCIe-—>GPU-—>顯存的復(fù)雜流程。

這個(gè)過程頻繁調(diào)用CPU與內(nèi)存，整體效率也不夠高，而且由于硬件的木桶效應(yīng)，整個(gè)流程中的硬件都有機(jī)會(huì)造成性能瓶頸，而且不能最大化利用PCIe通道的帶寬。

而NVIDA的RTX IO技術(shù)，可以讓GPU直接從走PCIe通道的硬盤中直接調(diào)用數(shù)據(jù)，既節(jié)省了CPU和內(nèi)存的占用，也大幅提高了傳輸效率，可以更好地發(fā)揮GPU和顯存的性能，搭配PCIe4.0通道的超高帶寬，可以最大化高速PCIe4.0硬盤和GPU的性能表現(xiàn) 。

從NVIDIA官方提供的展示DEMO來看，RTX IO技術(shù)帶來的傳輸效率提升非常明顯，對(duì)比傳統(tǒng)模式下使用PCIe 4.0 SSD和24核線程撕裂者的配置，RTX IO的加載時(shí)間只需1.5秒，而前者最快也要5秒，這個(gè)表現(xiàn)讓它具備相當(dāng)出色的應(yīng)用前景。

不過該技術(shù)目前還處于初始階段，未來也得像DLSS、光追技術(shù)一樣需要游戲獨(dú)立研發(fā)支持，NVIDA這邊也得花費(fèi)不少成本才能完成研發(fā)和大規(guī)模推廣

HDMI 2.1：為8K游戲鋪路

采用NVIDIA Ampere架構(gòu)的RTX 30系列顯卡還配備了最新的HDMI2.1顯示出書接口，這一接口專門為8K以上的畫面?zhèn)鬏敹O(shè)計(jì)，傳輸帶寬從HDMI2.0的18Gbps提升到48Gbps，提升幅度達(dá)到2.67倍，最大可傳輸10K@120FPS的視頻訊號(hào)，而且能完美支持HDR、增強(qiáng)音頻回程通道eARC、可變刷新率VRR、快速幀傳輸QFT、自動(dòng)低延遲模式ALLM等特性。

不過目前要享受8K游戲的魅力，除了得擁有該接口外，還需要用上RTX 3090以上級(jí)別顯卡、HDMI 2.1的專用線纜和支持HDMI 2.1接口的8K顯示器，短期內(nèi)該接口依然會(huì)是為土豪準(zhǔn)備的玩意。

NVIDIA Reflex：決勝分毫，提升電競(jìng)表現(xiàn)

NVIDIA Reflex是一個(gè)為降低游戲顯示延遲的技術(shù)，該技術(shù)融合GPU和游戲優(yōu)化，通過硬件和軟件的結(jié)合動(dòng)態(tài)降低系統(tǒng)延遲，優(yōu)化的核心精簡(jiǎn)整個(gè)畫面輸出流程。

在傳統(tǒng)的輸出流程中，鼠標(biāo)、鍵盤和手柄等輸入設(shè)備發(fā)送信號(hào)后，經(jīng)由CPU處理后，需要輸入到渲染隊(duì)列后并由GPU執(zhí)行渲染，最后再由GOU輸出到顯示器中，這個(gè)過程中，外設(shè)輸入、PC內(nèi)部處理和顯示器輸出都會(huì)有一定的延遲，NVIDIA Reflex主要是對(duì)PC內(nèi)部處理的部分進(jìn)行精簡(jiǎn) 。

該技術(shù)直接去掉了交由渲染隊(duì)列等待的過程，直接向CPU處理過后的數(shù)據(jù)交由GPU即時(shí)進(jìn)行處理，除了提升傳輸效率外還釋放了CPU的負(fù)載，降低延遲的同時(shí)也減少了對(duì)CPU資源的消耗。

【全面升級(jí)帶來性能暴漲 Ampere架構(gòu)新特性看這里】在各項(xiàng)熱門游戲中，開啟NVIDIA Reflex功能可以有效降低系統(tǒng)延遲，這個(gè)提升幅度對(duì)游戲玩家，尤其是追求極致響應(yīng)速度的電競(jìng)選手來說非常重要，可以有效提升他們?cè)陔姼?jìng)比賽中的響應(yīng)表現(xiàn) 。

影馳RTX 30系列顯卡：散熱全面升級(jí) 帶來極致游戲體驗(yàn)

NVIDIA Ampere架構(gòu)各項(xiàng)新特性為RTX 30系列顯卡帶來了非常驚艷的性能表現(xiàn)，影馳作為NVIDIA的核心AIC合作伙伴，也推出了全面覆蓋RTX 3090/3080/3070的GAMER、星曜、金屬大師、將系列產(chǎn)品。

在完整享受NVIDIA Ampere架構(gòu)所有新特性的同時(shí)，影馳RTX30系列散熱器的設(shè)計(jì)全面升級(jí)，更加契合每個(gè)系列特性的設(shè)計(jì)語言，塑造完全不同以往的全新體驗(yàn)，搭配更加優(yōu)秀的整卡調(diào)教及優(yōu)化，性能強(qiáng)悍穩(wěn)定無憂，為玩家打造真正的史上最強(qiáng)超級(jí)裝備，準(zhǔn)備入手RTX 30系列顯卡的朋友可不要錯(cuò)過了。