Kaldi之父Daniel Povey博士:發佈k2核心代碼

11月15日,第五屆Kaldi技術交流會在北京舉辦。Kaldi之父Daniel Povey博士首次親臨現場,與來自北京各大互聯網公司、知名高校開發者們深入交流下一代Kaldi社區未來的發展

加入小米一年,Daniel Povey設計並開發出了新一代Kaldi。新一代Kaldi分成三個部分,包括核心算法部分,訓練數據準備部分、示例腳本集合部分。

其中,Lhotse(訓練數據準備部分)將替代以前Kaldi中所有數據準備相關的工作,操作各種音頻文本的元數據。Lhotse除了Kaldi本身,也適用於其他應用。而且Lhotse純Python代碼,方便易用。

Icefall(示例腳本集合部分)將代替Kaldi中的示例腳本集合,並獨立成爲一個單獨的子項目。之所以要把示例腳本集合與核心算法分開,是考慮到示例腳本可能會非常龐大,且經常變動

據介紹,新一代Kaldi的核心部分叫“k2”。k2可以讓開發者很容易在PyTorch/TensorFlow中實現各種語音識別相關算法,比如CTC、LF—MMI、RNN—T、2nd—pass語言模型等,消除以往語音識別算法中訓練跟解碼不匹配的問題

同時,通過k2可以非常容易實現(置信度逐漸提高的)多輪解碼過程,這在以往是很難做到的。相較於其他一些語音識別庫的優勢,k2速度更快,通用性強(可以用來建模多種語音識別算法)。

Daniel Povey博士透露,k2核心代碼已完成。約41000行代碼(主要是C++),本週剛發佈0.1版本

資料顯示,Daniel Povey博士目前擔任小米集團語音首席科學家,由他開發和維護Kaldi 集成了多種語音識別模型,公認是業界語音識別框架基石