科大訊飛程坤:用AI技術引領輸入方式新變革

近日,訊飛輸入法上線智能拍照輸入”功能,該功能基於科大訊飛新一代視覺A.I.技術,融合手寫識別和機器翻譯等技術,打造拼音、手寫、語音之外的輸入交互方式。關於訊飛輸入法“智能拍照輸入”功能的特點以及產品願景本站科技獨家專訪了科大訊飛輸入法業務部總經理程坤

除了鍵盤和語音,你還可以這樣輸入?

一款新產品的發佈,或者全新產品功能的推出,作爲用戶來講,最關心的莫過於其功能特點所在。關於訊飛輸入法“智能拍照輸入”功能特點,程坤將其總結爲三點。

首先,在使用場景層面,訊飛輸入法“智能拍照輸入”基於科大訊飛的整體A.I.能力,擴展和延伸了文字掃描功能。用戶通過“拍照”就能搞定各種複雜信息的錄入,程坤介紹到,訊飛輸入法“智能拍照輸入”除了基礎的文字識別之外,還可以通過拍照識別表格內容並生成可編輯的excel文檔,對於包含文本外複雜信息的素材,也可將其恢復爲word格式的可編輯文檔,解決了多種辦公場景的用戶剛需。此外,在教育場景中,用戶通過拍照,也可以將手寫的數理符號公式等內容轉化爲電子版,輕鬆完成輸入。

其次,在識別的效果層面,除了對印刷體的識別,訊飛輸入法還支持手寫體識別,即使角度扭曲、圖片模糊、超遠距離,依然可以準確識別。語言方面,除了中文還支持英、日、韓、德等多種主流語種語言的識別輸入,中英文混合識別。

此外,訊飛輸入法“智能拍照輸入”擴展了輸入的智能性,其智能批改功能,用戶通過簡單的拍照操作就可以完成對小學數學多種題型的批改。

智能拍照輸入是如何克服研發難題的?

針對以上幾個產品特點,程坤也介紹了訊飛在研發過程中遇到的技術難點以及解決方案

程坤談到,圖像識技術實際上也是一種感知智能,在產品研發過程中,需要藉助海量訓練數據,而得到這些數據的渠道和方法尤爲重要,“印刷體的數據在網上很容易找到,然而手寫體由於不同人書寫風格的不同,加以光線等影響因素,數據很難得到。”程坤錶示。爲了解決這個問題,訊飛通過自然場景的數據增強技術,採用人工智能技術生成批量訓練數據,解決了前期數據量不足的問題。

同時,針對數學公式的識別,印刷體的識別相對較易實現,但手寫體的識別,依然存在極大挑戰。程坤介紹,由於數學公式涉及左右、上下等符號角標,考慮符號與符號之間較小的像素比,導致很多情況下難以區分。此外,不同人的書寫習慣也存在很大差異。爲了能提高數學公式的識別準確度,科大訊飛採用了基於樹形結構建模的解決方案。首先從局部識別,區分符號大小,排除干擾因素,進而提取需要進行識別的主體,大大提升了識別效果。

人工智能技術讓輸入更快更準更聰明

談到這一功能的研發初衷,程坤錶示:“一開始是因爲看到了各種各樣的用戶需求,比如很多人都經歷過的想要把圖片或者pdf,書報雜誌、手寫的會議紀要上的文字快速變成可編輯的電子版,或者購買、查看一些商品/物品使用說明是小語種,或者一些數學公式不知道怎麼輸入,當時就想,作爲手機端高頻應用服務的輸入法,能否將這些用戶需求一併考慮進來,擴大信息輸入的外延,藉助科大訊飛新一代視覺A.I.技術,讓大家在不同應用場景下通過手機拍照功能實現文字信息一鍵錄入,我們認爲,輸入法絕對不止是單純的打字工具,更是一個集信息輸入、查詢、獲取、娛樂於等各種功能的信息處理平臺,希望能通過人工智能技術探索新的輸入方式,滿足用戶不斷變化的需求。”

在程坤看來,這也是整個訊飛輸入法產品功能的研發動因,希望基於科大訊飛在人工智能領域的一系列積累,以及對於用戶使用痛點的不斷挖掘,從而不斷提出可行性解決方案。“訊飛輸入法現階段的發展重點就是不斷將AI技術融入到更多的使用場景中,爲用戶提供系統化的輸入解決方案,滿足用戶在不同場景下的個性化輸入需求。”

被問及訊飛輸入法的產品願景,程坤將其闡述爲三個層次:場景化、人羣多元化以及智能情感化。程坤談到,例如用戶在即時通訊遊戲時使用輸入法,就存在明顯的使用場景的差別,而對於不同的用戶人羣,例如學生、商務人士、老人等,又有基於不同使用需求的人羣劃分。“年輕人喜歡遊戲、喜歡皮膚表情,而商務人士也許只需要高效輸入。”程坤錶示,基於此。訊飛推出諸如長輩模式”、“無障礙模式”等,希望針對不同人羣的使用習慣,滿足他們的輸入體驗

最後,程坤希望訊飛輸入法在更智能的同時,可以擁有更加感性的使用體驗。程坤認爲,目前的用戶與輸入法的交互,更多的是一個被動的過程,訊飛輸入法希望藉助科大訊飛人工智能技術的持續發展和進步,朝着更快更準更聰明的方向邁進,使輸入法產品演變爲具備陪伴功能的情感化產品,最終進化成一個有情感、智能的助手角色。