☰

科大訊飛程坤：用AI技術引領輸入方式新變革

近日，訊飛輸入法上線“智能拍照輸入”功能，該功能基於科大訊飛新一代視覺A.I.技術，融合手寫識別和機器翻譯等技術，打造拼音、手寫、語音之外的輸入交互方式。關於訊飛輸入法“智能拍照輸入”功能的特點以及產品願景，本站科技獨家專訪了科大訊飛輸入法業務部總經理程坤。

除了鍵盤和語音，你還可以這樣輸入？

一款新產品的發佈，或者全新產品功能的推出，作爲用戶來講，最關心的莫過於其功能特點所在。關於訊飛輸入法“智能拍照輸入”功能特點，程坤將其總結爲三點。

首先，在使用場景層面，訊飛輸入法“智能拍照輸入”基於科大訊飛的整體A.I.能力，擴展和延伸了文字掃描功能。用戶通過“拍照”就能搞定各種複雜信息的錄入，程坤介紹到，訊飛輸入法“智能拍照輸入”除了基礎的文字識別之外，還可以通過拍照識別表格內容並生成可編輯的excel文檔，對於包含文本外複雜信息的素材，也可將其恢復爲word格式的可編輯文檔，解決了多種辦公場景的用戶剛需。此外，在教育場景中，用戶通過拍照，也可以將手寫的數理符號、公式等內容轉化爲電子版，輕鬆完成輸入。

其次，在識別的效果層面，除了對印刷體的識別，訊飛輸入法還支持手寫體識別，即使角度扭曲、圖片模糊、超遠距離，依然可以準確識別。語言方面，除了中文還支持英、日、韓、德等多種主流語種語言的識別輸入，中英文混合識別。

此外，訊飛輸入法“智能拍照輸入”擴展了輸入的智能性，其智能批改功能，用戶通過簡單的拍照操作就可以完成對小學數學多種題型的批改。

智能拍照輸入是如何克服研發難題的？

針對以上幾個產品特點，程坤也介紹了訊飛在研發過程中遇到的技術難點以及解決方案。

程坤談到，圖像識技術實際上也是一種感知智能，在產品研發過程中，需要藉助海量訓練的數據，而得到這些數據的渠道和方法尤爲重要，“印刷體的數據在網上很容易找到，然而手寫體由於不同人書寫風格的不同，加以光線等影響因素，數據很難得到。”程坤錶示。爲了解決這個問題，訊飛通過自然場景的數據增強技術，採用人工智能技術生成批量訓練數據，解決了前期數據量不足的問題。

同時，針對數學公式的識別，印刷體的識別相對較易實現，但手寫體的識別，依然存在極大挑戰。程坤介紹，由於數學公式涉及左右、上下等符號角標，考慮符號與符號之間較小的像素比，導致很多情況下難以區分。此外，不同人的書寫習慣也存在很大差異。爲了能提高數學公式的識別準確度，科大訊飛採用了基於樹形結構建模的解決方案。首先從局部識別，區分符號大小，排除干擾因素，進而提取需要進行識別的主體，大大提升了識別效果。

人工智能技術讓輸入更快更準更聰明

談到這一功能的研發初衷，程坤錶示：“一開始是因爲看到了各種各樣的用戶需求，比如很多人都經歷過的想要把圖片或者pdf，書報雜誌、手寫的會議紀要上的文字快速變成可編輯的電子版，或者購買、查看一些商品/物品使用說明是小語種，或者一些數學公式不知道怎麼輸入，當時就想，作爲手機端高頻應用服務的輸入法，能否將這些用戶需求一併考慮進來，擴大信息輸入的外延，藉助科大訊飛新一代視覺A.I.技術，讓大家在不同應用場景下通過手機拍照功能實現文字信息一鍵錄入，我們認爲，輸入法絕對不止是單純的打字工具，更是一個集信息輸入、查詢、獲取、娛樂於等各種功能的信息處理平臺，希望能通過人工智能技術探索新的輸入方式，滿足用戶不斷變化的需求。”

在程坤看來，這也是整個訊飛輸入法產品功能的研發動因，希望基於科大訊飛在人工智能領域的一系列積累，以及對於用戶使用痛點的不斷挖掘，從而不斷提出可行性解決方案。“訊飛輸入法現階段的發展重點就是不斷將AI技術融入到更多的使用場景中，爲用戶提供系統化的輸入解決方案，滿足用戶在不同場景下的個性化輸入需求。”

被問及訊飛輸入法的產品願景，程坤將其闡述爲三個層次：場景化、人羣多元化以及智能情感化。程坤談到，例如用戶在即時通訊和遊戲時使用輸入法，就存在明顯的使用場景的差別，而對於不同的用戶人羣，例如學生、商務人士、老人等，又有基於不同使用需求的人羣劃分。“年輕人喜歡遊戲、喜歡皮膚表情，而商務人士也許只需要高效輸入。”程坤錶示，基於此。訊飛推出諸如“長輩模式”、“無障礙模式”等，希望針對不同人羣的使用習慣，滿足他們的輸入體驗。

最後，程坤希望訊飛輸入法在更智能的同時，可以擁有更加感性的使用體驗。程坤認爲，目前的用戶與輸入法的交互，更多的是一個被動的過程，訊飛輸入法希望藉助科大訊飛人工智能技術的持續發展和進步，朝着更快更準更聰明的方向邁進，使輸入法產品演變爲具備陪伴功能的情感化產品，最終進化成一個有情感、智能的助手角色。

科大訊飛程坤：用AI技術引領輸入方式新變革

相關資訊