浪潮AI服務器大幅提升NLP模型Transformer訓練性能
最近,在北京召開的2019人工智能計算大會(AICC-2019)上,浪潮發表了主流自然語言處理(NLP)模型Transformer的最新性能測試數據 。Transformer模型參數規模可達數億,對計算、通信的要求非常高 。性能數據顯示,與同類服務器相比,浪潮AI服務器NF5488M5大幅提高了Transformer的訓練性能,GLUE基準訓練到80.4%的時間比同類產品大幅減少了67% 。
浪潮AI服務器NF5488M5
人工智能正在由能看、會聽的感知智能向能讀、會寫的認知智能邁進 。由于文字是信息、思想的重要載體,如果計算機能夠理解文字并能夠用文字表達,那么就具備了讀寫能力,因而NLP被認為是認知智能的重要突破口 。目前主流的NLP模型包括Transformer, Bert, GPT, XLNet等,而Bert和GPT都基于Transformer架構 。Transformer被視為NLP的典型模型,2017年谷歌提出,利用自我注意力(self-attention)機制迅速并行,可以增加到非常深的深度,充分發掘DNN模型的特性,提高模型的精度 。
但Transformer模型訓練是一個大問題,參數規模達數億,對計算能力的需求很大 。OpenAI的Transformer模型有12層、768個隱藏單元,8個P100個GPU用8億個單詞的數據集訓練40個Epoch需要1個月 。背后的原因在于GPU通信的制約 。TransformerAttention機制的全連接層在計算時生大量參數,更新參數梯度需要GPU之間的高速傳輸 。同時,模型規模大,占有大量GPU,batchsize通常小,計算時間快,計算后更新參數梯度頻繁,這也要求更高的GPU之間的傳輸速度 。
浪潮AI服務器NF5488M5通過沒有堵塞的GPU全連接設計,突破了Allto,Alll300GB/s的Peertoper帶寬 。在當前深入學習通信模型All、Reduce性能表現方面,NF5488M5的實際通信帶寬可達到通常NVLink連接的GPU服務器的3倍以上 。這一特性大大提高了Transformer模型在NF5488M5上的通信效率,提高了計算通信比,節省了整體運行時間 。根據測試結果,NF5488M5大大提高了Transformer的訓練性能,GLUE基準訓練到80.4%的時間比采用PCIe連接的8GPU服務器短67%,比采用通常NVLink連接的8GPU服務器短31% 。
Transformer訓練性能測試結果
浪潮集團AIampHPC社長劉軍認為,目前基于Transformer的Bert、XLNet等模型代表了NLP的發展方向,其特點是加速器之間的通信制約 。測試結果表明,浪潮AI服務器NF5488M5在GPU之間的通信效率方面具有顯著的領先優勢,可以大幅度提高Transformer等大型AI工作負荷的訓練性能,降低訓練成本,加快認知智能開發和應用落地 。
【浪潮AI服務器大幅提升NLP模型Transformer訓練性能】浪潮是人工智能計算的領導品牌,AI服務器中國市場份額保持在50%以上,與人工智能領導科學技術公司在系統和應用方面深入合作,幫助AI客戶在語音、語義、圖像、視頻、檢索、網絡等方面提高數量級的應用性能 。浪潮與合作伙伴共建元腦生態,共享AI計算、資源和算法三個核心平臺能力,幫助行業用戶開發和部署自己的行業大腦,加快產業AI化落地 。
推薦閱讀
- 蘋果2020年發布的新款iPhone SE,國內會不會出現一波小屏高配旗艦手機浪潮?
- 浪潮將在ISC19展示最新AI HPC融合產品及方案
- 浪潮聯手英特爾發布AI HPC融合一體機
- 百度AI開發者大會亮相浪潮AI服務器
- 官宣!浪潮信息三款開放計算產品通過OCP認證
- 浪潮與百度共建AIStation與飛槳聯合方案 推進產業AI化
- 這家中國公司拿到了IBM服務器芯片架構的授權
- 1.4億用戶讓騰訊的服務器崩了……
- 浪潮劉軍:AI計算驅動AI應用高速前行
- 互聯網大會浪潮重磅發布更智能更高效的AI資源平臺AIStation 2.0
