愛奇藝舉辦“多說話人多風格音色克隆大賽”  加速AI語音在視頻行業應用

(原標題愛奇藝舉辦“多說話人多風格音色克隆大賽”  加速AI語音視頻行業應用)

11月27日,愛奇藝多說話人多風格音色克隆大賽(M2VoC)發佈詳細參賽指引。本屆大賽由愛奇專家團隊組織舉辦,旨在提供一個通用的數據集與一個公平測試平臺,對語音克隆任務進行研究。作爲世界上第一個小資源音色克隆挑戰賽,愛奇藝多說話人多風格音色克隆大賽的舉辦,爲音色克隆、語音識別等前沿技術的創新探索提供更多機會,進一步拓寬人工智能技術的應用空間,爲視聽行業發展提供新契機

作爲人工智能中一項創新技術,語音合成是打造良好交互體驗的重要前提,在語音助手信息播報、有聲讀物方面具有重要應用價值。在深度學習的幫助下,語音合成已經實現效果上的顯著提升,在端到端語音合成框架神經碼器的技術加持下,可以生成特定領域內非常逼真和自然的語音。但與此同時,由於語音合成需要大量的語料數據和較高要求的語料錄製環境,語料製作的資金成本時間成本也成爲技術提升的難點。對於多說話人和多風格的語音合成,尤其是在真實環境錄製或是低資源的情況下表現力魯棒性(穩固性)仍有較大進步空間,就此,愛奇藝聯合多家單位在ICASSP2021舉辦多說話人多風格音色克隆大賽(M2VoC),以降低對訓練語料數量質量的依賴,提高合成模型質量爲導向,在語料資源受限的條件下,提高合成語音的可懂度和自然度。

在2020年11月27日至2021年2月11日期間,愛奇藝多說話人多風格音色克隆大賽分爲少樣本賽道和極少樣本賽道兩大任務。在少樣本賽道方面,主辦方針對每個說話人有不同的說話風格和100個可用的音色克隆樣本進行校驗和最終測試,併爲參賽者提供一個多說話人語料庫,以便於訓練基礎模型;在極少樣本賽道方面,主辦方針對每個說話人不同的說話風格和5個可用的音色克隆樣例進行校驗和最終測試。最終,主辦方經過“說話人相似度、語音質量、風格/表現力、發音準確率”四大標準加權作爲比賽評判標準。本次愛奇藝多說話人多風格音色克隆大賽(M2VoC)是世界上第一個小資源音色克隆挑戰賽,在此之前業內比賽普遍使用使用較大數量單一風格樣本。

作爲2021年聲學、語音和信號處理國際會議(ICASSP2021)信號處理挑戰旗艦任務之一,多說話人多風格音色克隆大賽(M2VoC)非常鼓勵學術界工業界的研究人員加入。愛奇藝希望通過多說話人多風格音色克隆大賽的舉辦,聯合更多科研人才基於先進的深度學習技術和語音轉換技術處理,克隆多說話人與多風格的語音合成,爲低資源語音克隆提供解決方案。同時,多說話人多風格音色克隆大賽也可進一步提升用戶在觀看視頻時的交互體驗,推進音色克隆技術的發展和應用。

科技發展推動着行業的快速進步。知名市場調查公司Global Industry Analysts預測,全球語音和語音識別技術市場在未來七至八年內將增長至160億美元,複合年增長率爲16%。一直以來,愛奇藝持續以人工智能技術賦能內容創作,提升用戶娛樂體驗,不斷完善愛奇藝新娛樂生態。目前,愛奇藝AI技術已經應用於內容創作、生產、製作、分發、商業化等一整套流程。其中,愛奇藝智能廣告追蹤系統通過多種識別服務,能夠快速追蹤到視頻中廣告出現的時間、位置,確保節目滿足了廣告主的廣告需求,相較於人工效率提升三倍。未來,愛奇藝將不斷探索語音AI技術,並激發語音AI技術在泛娛樂行業中各個場景的巨大應用價值,爲用戶創造更美好的視聽世界。