界面新聞|達摩院語音AI新進展:移動端語音識別與合成支持斷網不中斷
采訪人員 | 林北辰
9月18日 , 在2020云棲大會上 , 達摩院公布了語音AI技術的最新突破:移動端的語音識別與合成可以支持斷網不中斷;僅從語音識別能力來看 , 手機上不到40兆的系統可以媲美過去云端上200G系統的效果 。
所謂的“端上”語音交互能力 , 指的是在例如高德地圖等手機App內的語音識別和合成功能 。過去 , 由于精確的語音交互任務長期依賴云端算力 , 造成了語音指令處理不可避免地延時等問題 , 移動端的語音功能并不完整 。
很長一段時間 , 在語音識別領域 , 文字轉錄、體感較好的語音識別和合成功能主要在云端完成 , 這是由于云上的算力較強 , 能夠支持語音識別對算力的要求 。相較之下 , 手機端的CPU和內存容量較小 , 對語音識別功能來說 , 在不聯網的情況下 , 手機端的算力和內存較難支持高精度的語音識別 。
但本次云棲大會上 , 達摩院對外聲稱 , 已取得了技術上的突破 , 未來個人用戶在移動終端也能實現更精準的語音交互 , 即便在斷網的情況下 , 手機上的語音識別及合成能力仍可以媲美云端 。目前這項最新的語音技術已接入淘寶直播、釘釘會議、高德導航等場景應用 , 并進入對外開放階段 。
從技術上來看 , 此次達摩院的創新在于算法模型上的突破 , 推出E2E-ASR端到端語音識別技術及端上KAN-TTS語音合成技術 , 這兩項技術將高難度場景中的語音識別錯誤率降低近三成 , 可以說是近期移動端語音識別技術最大的突破 。
文章圖片
具體應用上 , 高德地圖近期發布了利用達摩院全新語音技術合成的李佳琦、林志玲、小團團等明星導航語音包 , 創新點在于斷網狀態下的語音導航不會中斷 。
這樣的效果背后 , 是達摩院對語音模型進行了“大瘦身” , 將移動端的語音模型縮小至云端的一百零一分之一 , 計算量壓縮35倍 。這是繼去年發布仿真率可達97%的自研KAN-TTS語音合成模型后的又一次進步 。
2019年 , 阿里語音AI曾入選《麻省理工評論》“全球十大突破性技術” , 是唯一上榜的中國科技公司;今年7月IDC發布的《中國AI云服務市場半年度研究報告》顯示 , 阿里語音AI以44%的市場份額 , 在云上語音AI市場中位居第一 。
新聞推薦
追星 , 可喜的變遷
【界面新聞|達摩院語音AI新進展:移動端語音識別與合成支持斷網不中斷】□周學澤9月8日上午 , 全國抗擊新冠肺炎疫情表彰大會在北京人民大會堂隆重舉行 , 大會授予鐘南山(上圖)“共和國勛章” , 授予...
推薦閱讀
- 《中國新聞網》透露年度盛典節目單,肖戰也在其中,期待精彩表現
- 養生段子手健康脫口秀 春節來新聞坊 一道聽醫講
- 《啟航吧 少年》2022年少兒春晚將于1月31日上午905在梧州新聞綜合頻道首播
- 五哈新聞報道初體驗 陳赫走訪采風未來鄉村
- 央視《新聞聯播》獨家報道晚會彩排,提前公開部分嘉賓選擇
- 央視《2022年春節聯歡晚會》新聞發布會召開,今年春晚創新引領 值得期待
- 《鄉村愛情14》今晚開播,這趟“鄉愛列車”你遇到了嗎?
- 2022春晚:完成第一次彩排,《新聞聯播》首次對其進行全方位報道
- 【韓網新聞】被‘Running Man’糾纏的‘不舒服’…“再怎么親近也不能說臟話”!
- 讓曹可凡主持新聞節目!東方衛視“后繼無人”了嗎
