界面新聞|達摩院語音AI新進展：移動端語音識別與合成支持斷網不中斷記者|||林北辰9月18

采訪人員 | 林北辰
9月18日，在2020云棲大會上，達摩院公布了語音AI技術的最新突破：移動端的語音識別與合成可以支持斷網不中斷；僅從語音識別能力來看，手機上不到40兆的系統可以媲美過去云端上200G系統的效果。
所謂的“端上”語音交互能力，指的是在例如高德地圖等手機App內的語音識別和合成功能。過去，由于精確的語音交互任務長期依賴云端算力，造成了語音指令處理不可避免地延時等問題，移動端的語音功能并不完整。
很長一段時間，在語音識別領域，文字轉錄、體感較好的語音識別和合成功能主要在云端完成，這是由于云上的算力較強，能夠支持語音識別對算力的要求。相較之下，手機端的CPU和內存容量較小，對語音識別功能來說，在不聯網的情況下，手機端的算力和內存較難支持高精度的語音識別。
但本次云棲大會上，達摩院對外聲稱，已取得了技術上的突破，未來個人用戶在移動終端也能實現更精準的語音交互，即便在斷網的情況下，手機上的語音識別及合成能力仍可以媲美云端。目前這項最新的語音技術已接入淘寶直播、釘釘會議、高德導航等場景應用，并進入對外開放階段。
從技術上來看，此次達摩院的創新在于算法模型上的突破，推出E2E-ASR端到端語音識別技術及端上KAN-TTS語音合成技術，這兩項技術將高難度場景中的語音識別錯誤率降低近三成，可以說是近期移動端語音識別技術最大的突破。

文章圖片

具體應用上，高德地圖近期發布了利用達摩院全新語音技術合成的李佳琦、林志玲、小團團等明星導航語音包，創新點在于斷網狀態下的語音導航不會中斷。
這樣的效果背后，是達摩院對語音模型進行了“大瘦身” ，將移動端的語音模型縮小至云端的一百零一分之一，計算量壓縮35倍。這是繼去年發布仿真率可達97%的自研KAN-TTS語音合成模型后的又一次進步。
2019年，阿里語音AI曾入選《麻省理工評論》“全球十大突破性技術” ，是唯一上榜的中國科技公司；今年7月IDC發布的《中國AI云服務市場半年度研究報告》顯示，阿里語音AI以44%的市場份額，在云上語音AI市場中位居第一。
新聞推薦
追星，可喜的變遷
【界面新聞|達摩院語音AI新進展：移動端語音識別與合成支持斷網不中斷】□周學澤9月8日上午，全國抗擊新冠肺炎疫情表彰大會在北京人民大會堂隆重舉行，大會授予鐘南山(上圖)“共和國勛章” ，授予...

界面新聞|達摩院語音AI新進展：移動端語音識別與合成支持斷網不中斷

推薦閱讀

如何找尋自我

縫紉機調線器怎么安裝平車方法如何

強組詞強字組詞

火筍雞翅的做法（增肥食譜）

閨女生日快樂祝福語朋友圈

LV請來潮牌設計師做藝術總監，看中的是啥

老虎豆怎么做好吃老虎豆圖片怎樣弄來吃

暖氣有流水聲是什么原因

皮球是什么體

手機怎樣開通QQ空間

男生發mua說明 mua是什么意思

手指蓋凹陷怎么回事

對自己的生活失去掌控咋調整

小米10s怎么沒有月亮模式

我想找個偏僻的地方搞養殖！有沒有推薦的地方？

南京養老金認證上門服務怎么申請南京市養老金認證

如何評價豬場閹割豬？

最后一個字是豹的成語

泰山散酒怎么樣

貓發情的聲音(貓發情的叫聲)