多語種語言理解技術硬實力再次“曝光” 科大訊飛斬獲SemEval 2022三項冠軍

(原標題語種語言理解技術實力再次“曝光” 科大訊飛斬獲SemEval 2022三項冠軍

近日,第十六屆國際語義評測大賽(The 16th International Workshop on Semantic Evaluation, SemEval 2022)落下帷幕國內人工智能巨頭科大訊飛,從達特茅斯學院、謝菲爾德大學華爲等一衆參賽選手中脫穎而出,成功奪得三項重量級冠軍,充分彰顯了其在多語種語言理解領域的技術硬實力。

據悉,SemEval 2022評測由國際計算語言學協會(Association for Computational Linguistics, ACL)旗下SIGLEX主辦,迄今已舉辦16屆,代表最前沿國際技術和水平。而科大訊飛分別在“多語種新聞相似度評測任務”(Task 8)、“多語種慣用語識別任務” 子賽道(Task 2: Subtask A one-shot)、“多語種複雜命名實體識別任務”(Task 11)三個子賽道中拿下冠軍,表明其在多語種語言理解方面已經再走了行業的前端。

其中,多語種新聞相似度評測任務(Task 8),要求參賽隊伍需要在每組新聞中判斷是否描述了同一個事件,並以1-4分爲兩篇新聞的相似度打分。在此過程中,參賽隊伍必須將文中相似的主要元素剝離出來並逐一分析,比如地理信息、敘事技巧、實體、語氣時間風格,最終得出兩篇文章的相似度與差異化。值得一提的是,這項任務涉及阿拉伯語德語英語西班牙語等多達10種語言。能夠在這項任務中奪得魁首,充分展示了科大訊飛在跨語言理解能力上的技術優勢

科大訊飛奪得的第二項冠軍,即語種慣用語識別任務(Task 2),則要求參賽隊伍根據給定的目標語句,包括其上下文和多字短語,判斷該語句中的多字短語用法究竟是慣用語還是字面意思。該任務爲多語言任務,包含英語、葡萄牙語加利西亞語三種語言,需要參賽隊伍在不同語言之間進行遷移學習。能夠成功奪冠,說明科大訊飛有着強大的分析及跨語言理解能力。而有了該項技術,在日常寫作和翻譯工作中,即可有效鑑別慣用語的表達用意,極大提高內容準確率

相比於前兩項冠軍,第三冠——多語種複雜命名實體識別任務(MutiCoNER),在複雜程度方面更上了一層臺階。該任務是一個多語言賽道數據集,包含11項單獨語言命名實體評測任務,以及2項多語言統一建模的評測任務,要求參賽團隊在單個語言以及多個語言混合文本數據中,精準預測不同語言實體的類別標籤。而科大訊飛在多語言混合、中文孟加拉語賽道上,分別以92.9%、81.6%、84.2%的F1成績登頂,再度證明了其源頭創新能力

從OpenASR連奪22冠,到成爲北京冬奧會和冬殘奧會“官方自動語音轉換與翻譯獨家供應商”,再到此番成爲SemEval 2022三冠王,科大訊飛已經在智能語音領域形成了獨樹一幟的技術優勢。未來,科大訊飛將繼續深耕人工智能源頭技術創新,用人工智能技術服務社會,並推動中國在人工智能浪潮中佔得先機