網(wǎng)易 AI Lab 斬獲全球頂級聲紋識別競賽冠軍 _冠軍

近日，全球最大的語音大會INTERSPEECH2020公布了SdSV聲紋識別大賽的結(jié)果。網(wǎng)易AILab在眾多國際頂級團(tuán)隊中脫穎而出，在文本相關(guān)聲紋識別賽道綜合排名中獲得第一名，單模式第一名。凸顯了網(wǎng)易AILab在語音聲紋識別技術(shù)領(lǐng)域的領(lǐng)先地位。

本次國際聲紋識別大賽是行業(yè)內(nèi)非常權(quán)威的比賽。參賽隊伍來自眾多國際知名高校和企業(yè)，包括近兩年來世界上各種聲紋識別大賽的“常勝將軍”:布爾諾理工大學(xué)、新加坡傳播學(xué)院、約翰霍普金斯大學(xué)等。

在比賽中，網(wǎng)易AILab創(chuàng)新性地提出了一種基于通用X-Vector和PLDA算法的無ASR文本相關(guān)聲紋識別算法。與傳統(tǒng)的深度說話人嵌入方法相比，該算法不依賴語音識別，能夠在多語言環(huán)境下同時驗證說話人和文本內(nèi)容。

采用MinDCF(最小檢測成本)和EER(等錯誤率)作為評價指標(biāo) 。網(wǎng)易AILab的單一模型在這兩項指標(biāo)上都是最好的，其中EER達(dá)到1.67%，比第二名低11.6%，遠(yuǎn)低于游戲X-Vector基線系統(tǒng)(EER=9.05%) 。

在評價算法系統(tǒng)性能時，經(jīng)常輸出ROC曲線來描述FAR(誤識別率)和FRR(誤識別率)之間的關(guān)系。

簡單來說，在聲紋識別中，誤識別率是“取不應(yīng)匹配的聲紋作為匹配聲紋”的比例，拒識率是“取應(yīng)匹配的聲紋作為不匹配聲紋”的比例。

在安全性要求非常高的應(yīng)用場景中，F(xiàn)AR值會設(shè)置得更低，因為誤判的代價非常高，但這樣做會導(dǎo)致FRR值增加，用戶體驗下降。

等錯誤率(EER)是系統(tǒng)的誤識率(FAR)和拒識率(FRR)相等時的錯誤率，即ROC曲線與直線相交45度的點，是衡量聲紋識別算法系統(tǒng)綜合性能的重要指標(biāo) 。EER值越小，系統(tǒng)性能越好。

聲紋識別是一種生物特征識別技術(shù)，也稱為說話人識別，是一種通過聲音識別說話人的技術(shù) 。

目前，人工智能主要有三個研究方向：視覺識別、智能語音和NLP自然語言處理。其中，在語音識別領(lǐng)域，聲紋識別屬于相對藍(lán)海市場，主要解決“我就是我”的身份認(rèn)證問題，多用于安全驗證場景。

從近年來的市場趨勢來看，銀行、金融服務(wù)和保險已經(jīng)成為聲紋識別應(yīng)用的主導(dǎo)領(lǐng)域。

隨著技術(shù)的不斷成熟和融合，聲紋識別技術(shù)將逐步融入日常生活，根據(jù)不同應(yīng)用場景的特點進(jìn)行針對性開發(fā)將具有很大的應(yīng)用價值。

【網(wǎng)易 AI Lab 斬獲全球頂級聲紋識別競賽冠軍】 網(wǎng)易AILab聲紋識別技術(shù)已經(jīng)應(yīng)用于游戲場景。除了游戲身份驗證，還可以根據(jù)音色對用戶進(jìn)行分類，豐富玩家的畫像，從而更精準(zhǔn)地為玩家推薦志同道合的朋友，匹配實力相當(dāng)?shù)膶κ郑瑸橥婕規(guī)砀玫挠螒蝮w驗。