☰

Kaldi之父Daniel Povey博士：發佈k2核心代碼

11月15日，第五屆Kaldi技術交流會在北京舉辦。Kaldi之父Daniel Povey博士首次親臨現場，與來自北京各大互聯網公司、知名高校的開發者們深入交流下一代Kaldi社區未來的發展。

加入小米一年，Daniel Povey設計並開發出了新一代Kaldi。新一代Kaldi分成三個部分，包括核心算法部分，訓練數據準備部分、示例腳本集合部分。

其中，Lhotse（訓練數據準備部分）將替代以前Kaldi中所有數據準備相關的工作，操作各種音頻和文本的元數據。Lhotse除了Kaldi本身，也適用於其他應用。而且Lhotse純Python代碼，方便易用。

Icefall（示例腳本集合部分）將代替Kaldi中的示例腳本集合，並獨立成爲一個單獨的子項目。之所以要把示例腳本集合與核心算法分開，是考慮到示例腳本可能會非常龐大，且經常變動。

據介紹，新一代Kaldi的核心部分叫“k2”。k2可以讓開發者很容易在PyTorch/TensorFlow中實現各種語音識別相關算法，比如CTC、LF—MMI、RNN—T、2nd—pass語言模型等，消除以往語音識別算法中訓練跟解碼不匹配的問題。

同時，通過k2可以非常容易實現（置信度逐漸提高的）多輪解碼過程，這在以往是很難做到的。相較於其他一些語音識別庫的優勢，k2速度更快，通用性強（可以用來建模多種語音識別算法）。

Daniel Povey博士透露，k2核心代碼已完成。約41000行代碼（主要是C++），本週剛發佈0.1版本。

資料顯示，Daniel Povey博士目前擔任小米集團語音首席科學家，由他開發和維護Kaldi 集成了多種語音識別模型，公認是業界語音識別框架的基石。

相關資訊