100種語言任意翻譯!科幻電影中的“巴別魚”,Meta用AI實現了

在科幻小說《銀河系漫遊指南》中,作家道格拉斯·亞當斯描繪了一種神奇的宇宙生物——巴別魚,它以腦電波能量爲生,能夠使人們在將其塞進耳朵後,即刻理解任何語言的內容,輕鬆與外星人交流。同名電影也已於 2005 年上映。

自從小說問世以來,“巴別魚”便成爲了即時語音翻譯的象徵。然而,當時人類的翻譯技術距離這一設想仍有很大的差距,始終未出現統一的語音到語音翻譯模型。

如今,科幻電影中的“巴別魚”,Meta 用 AI 真的實現了——推出大規模多語言和多模態機器翻譯模型——SeamlessM4T。

據介紹,SeamlessM4T 可以在語音和文本之間實現即時翻譯和轉錄,支持以下五種功能:

爲了構建這一模型,Meta 重新設計了 Fairseq 序列建模工具包,從而創建更輕量級的模型,處理更多信息。

在模型方面,Meta 採用了多任務 UnitY 模型架構,這一架構能夠直接生成翻譯文本和語音。這個新架構還支持自動語音識別、文本到文本、文本到語音、語音到文本和語音到語音翻譯,這些功能已經成爲基本 UnitY 模型的一部分。多任務 UnitY 模型由三個主要的順序組件組成,其中文本和語音編碼器負責識別近 100 種語言的語音輸入。隨後,文本解碼器將這一意義轉化爲近 100 種語言的文本,然後是文本到單元模型,用於將其解碼爲 36 種語音語言的離散聲學單元。

爲了提高模型質量和訓練穩定性,自監督編碼器、語音到文本、文本到文本翻譯組件以及文本到單元模型都經過預訓練。最終,解碼得到的離散單元通過多語言 HiFi-GAN 單元聲碼器轉化爲語音。

利用自監督語音編碼器 w2v-BERT 2.0,研究人員分析了數百萬小時的多語種語音來學習在語音中找到結構和含義。該編碼器可以接收音頻信號,將其分解爲較小的部分,並構建所述內容的內部表示。由於口語詞彙由許多聲音和字符組成,研究人員使用長度適配器將它們大致映射到實際單詞中。

同樣,Meta 利用一個基於 NLLB 模型的文本編碼器,將其訓練成能夠理解近 100 種語言的文本,並生成對於翻譯有用的表示。

經過訓練的文本解碼器能夠接收編碼的語音表示或文本表示。這可應用於同一語言的任務,如自動語音識別和多語種翻譯任務。例如,有人可以說法語中的“bonjour”,然後期望斯瓦希里語中的翻譯文本是“habari”。通過多任務訓練,Meta 利用 NLLB 模型來通過 token 級別的知識蒸餾,來引導他們的語音到文本翻譯模型。

另外,Meta 使用聲學單元來表示目標語音。UnitY 模型中的文本到單元(T2U)組件根據文本輸出生成這些離散的語音單元,並在 UnitY 微調之前在 ASR 數據上進行了預訓練。然後,使用多語言 HiFi-GAN 單元聲碼器將這些離散單元轉換爲音頻波形。

在上述功能的加持下,SeamlessM4T 可以識別說話者何時進行代碼切換,或者何時在一句話中在兩種或更多語言之間切換。

此外,Meta 還構建了一個可涵蓋 200 種語言的多語言多模態文本嵌入空間——SONAR。然後,利用師生方法將其擴展到語音領域,涵蓋 36 種語言。通過在網絡數據和語音數據中進行挖掘,他們自動對齊了超過 443000 小時的語音和文本,並創造了 29000 小時的語音對齊數據。這個名爲 SeamlessAlign 的語料庫是迄今最大的開放式語音、語音和語音以及文本平行語料庫。

測評結果顯示,SeamlessM4T 在近 100 種語言中實現了最先進的結果,並跨自動語音識別、語音到文本、語音到語音、文本到語音以及文本到文本翻譯的多任務支持,全部由單一模型完成。此外,Meta 還顯著提升了對低資源和中資源語言的性能,同時在高資源語言上保持了強大的表現。

爲了更準確地評估系統,不僅依賴於基於文本的度量標準,Meta 將無文本度量標準擴展到了 BLASER 2.0,這使得在語音和文本單元之間進行評估時,與其前身相比能夠獲得類似的準確性。在魯棒性測試中,與當前最先進的模型相比,該系統在語音到文本任務中對抗背景噪音和說話者變化的性能表現更好(分別平均提升了 37% 和 48% )。

確保翻譯系統準確性至關重要,Meta 採用負責任的 AI 框架,通過研究毒性和偏見等敏感問題,來提升模型表現。他們也在語音中擴展了多語言毒性分類器,過濾了不平衡的毒性訓練數據。此外,他們還在性別偏見方面進行評估,並努力改進模型以減少毒性。未來,他們將持續致力於安全性和可靠性方面的工作。

SeamlessM4T 就像一個 AI 版“巴別魚”,但它不需要進入我們的耳朵中。

作者:閆一米 編輯:學術君