京東深耕語音技術研究 4篇論文入選國際語音頂會INTERSPEECH 2020

(原標題京東深耕語音技術研究 4篇論文入選國際語音頂會INTERSPEECH 2020)

從2017年全面向技術轉型至今,京東不僅用技術重塑零售生態,更是突破了零售的邊界,將技術全面拓展至數字科技、物流、健康等衆多領域。然而,由於與零售密切相關,大多數消費者僅在購物、物流等環節體驗到京東的技術進步。其實,在這些常見場景之外,京東的語音技術也已經擁有成熟的應用領域,例如京東智能客服和京東物流大件外呼,語音技術的相關研究也取得了重大進展,並獲得國際認可。

備受全球關注的第21屆國際語音通訊會議INTERSPEECH2020在上海召開。作爲國際語音通訊協會(International Speech Communication Association,ISCA)主辦的頂級國際會議,INTERSPEECH是國際公認的語音領域兩大頂會之一。此次會議共接收有效論文投稿2140篇,錄取1022篇,覆蓋語音、信號處理口語語言處理等多個方面。京東AI研究院共計4篇論文被收錄其中,包括獨立發表的3篇論文及與德克薩斯大學達拉斯分校聯合發表的1篇論文,內容涵蓋語音識別、語音增強、聲紋識別、語音合成等多個技術方向的創新突破。

聲源定位、增強和辨識是涉及到人機交互、語音增強、數字信號處理等的重要技術,在智能家居、智能安防等領域具有重要的應用價值。而在實際應用中,噪聲混響的存在常常會導致算法性能下降,尤其在室內環境中,混響、多聲源混疊等干擾尤爲明顯。如何有效利用麥克風陣列及傳統聲學處理方法,和深度神經網絡結合,提高複雜環境下的聲源定位、增強和辨識任務的性能,具有重要的科學意義和應用價值。

針對聲源定位和辨識問題,京東AI研究院在《Sound Event Localization and Detection Based on Multiple DOA Beamforming and Multi-task Learning》論文中提出了一種基於多方位波束形成和多任務學習的聲音事件檢測和定位方法,主要特點爲利用傳統聲學信號處理爲神經網絡提供更爲豐富的信息。具體而言,通過指向不同預定方位的固定波束形成,可提取各個方位的聲源信號,並抑制該方位之外的干擾信號。該方法無需預先進行聲源定位或掩蔽估計,即可獲得差異化、多樣化的聲學空間表示。根據在DCASE2019聲音事件檢測和定位數據集上進行的評估,顯示這個算法取得了最好的綜合性能。

爲了降低混響以增強語音,京東AI研究院與國際語音通訊協會主席John Hansen研究組進行了合作,和德克薩斯大學達拉斯分校共同發表了《SkipConvNet: Skip Convolutional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping》,提出利用全卷積神經網絡提升語音降混響,並提高語音識別和說話人識別的性能。基於“SkipConvNet”的降混響算法,用多個卷積網絡替換UNet的每個跳層連接,爲decoder供更爲直觀的信息表示。論文還提出了基於最優平滑功率譜估計預處理步驟,以提高對複雜條件下語音功率譜的表達能力實驗結果表明,這一方法在語音客觀質量評估上顯著優於基線系統,並明顯提升混響條件下的語音識別/說話人識別的評估指標。

語音識別及聲學前端處理的技術提升爲語音交互成爲人機交互的重要入口提供了技術支撐。但只識別指令內容是不夠的,真正的智能交互產生的基礎是機器能識別、區分說話人的身份,這就需要依託聲紋識別技術。

京東AI在《The JD AI Speaker Verification System for the FFSVC 2020 Challenge》一文中,基於FFSVC2020比賽提供的1100小時共計120個說話人的數據,京東提出了面向遠場說話人識別的多套數據增強方案。首先,通過波束形成、通道交換和降混響等技術,我們將遠場數據變換到近場;其次,通過估計FFSVC2020近場到遠場數據的房間衝激響應以及仿真生成大量的房間衝激響應,我們增加捲積噪聲以將近場數據變換到遠場;最後,基於錄製的大量的環境噪聲,在近場數據上進一步疊加了加性噪聲。本文詳細測試了上述數據增強方案的性能,並通過實驗結果驗證系統性能可以得到大幅提升。

除了在語音識別技術能力上進行深入研究外,京東還在語音合成的推理速度上進行了更多探索。在《Efficient WaveGlow: An Improved WaveGlow Vocoder with Enhanced Speed》一文中,京東提出了Efficient WaveGlow框架。和傳統的WaveGlow框架一樣,Efficient WaveGlow採用歸一化流作爲網絡框架,每一個流操作由一個affine coupling layer和可逆的1x1卷積層構成。通過對Efficient WaveGlow進行改進,京東實現了在沒有明顯的聲音質量下降的情況下,實現CPU上推理速度6倍的提升以及P40顯卡上推理速度5倍的提升。

京東語音技術能獲得國際認可,與其對技術研發的重視密不可分。這些技術將進一步增強京東的智能語音能力。目前,京東智能語音技術已經在智能外呼機器人、客服語音機器人等電話交互場景中實現成熟應用。在技術的加持下,京東不僅會夯實在零售生態的實力與地位,還可以通過技術賦能金融、醫療、教育、健康等行業,爲更多用戶提供便利服務。