Google Assistant發展AI中文語音的五大痛點公開、抵臺時間敬請期待

▲Google Assistant 中文研究員宋雲軒。(圖/記者洪聖壹攝)

記者洪聖壹/美國舊金山報導

關於 Google Assistant 支援繁體中文這方面,《ETtoday新聞雲》在多次媒體場合都曾發問過相同的問題:「Google Assistant什麼時候支援繁體中文」,這一次,Google Assistant 中文研究員宋雲軒向臺灣媒體一口氣說明了,究竟對智慧語音學習來說,中文爲什麼堪稱全世界最難懂的語言之一,而對老外來說,Google Assistant 發展繁體中文爲什麼會這麼難、這麼慢。

這次訪談過程中,Google Assistant 中文研究員宋雲軒並未迴應有關 Google Assistant 的開發團隊詳細狀況,包括最新開發進度、繁體中文開發進度,以及開發團隊人數等等。倒是針對 Google 如何完成「聲音辨識」以及如何迴應人類需求,做了一點淺顯易懂的說明。

Google Assistant 中文研究員宋雲軒表示,人與人之間的交流,最簡單的方式就是用聲音來講話,或者用文字形式來傳達。而 Google 發展人工智慧語音助理的想法,是希望讓語音助理「像人一樣對話」,其中最重要的任務就是要組織全世界的資訊,讓使用者都能夠簡單的完成任務,爲了達成這個任務,第一個問題就是要處理聲音資訊。第二個問題當然是要讓助理們如何正確、成功達成用戶的需求。

聲音

目前 Google 針對語音、語言處理技術,包括語音辨識跟語音合成,其中在語音辨識方面,像是 2019 年 Google 推出 Voice Search,讓用戶啓用語音,就能夠成功辨識成文字,現在透過語音辨識可以直接在虛擬鍵盤上啓用來撰寫文字,可以藉此協助用戶撰寫文章、email、短訊息等等。另外,這幾年最知名的就是 Triggering,這項技術主要是用來區別指令的一個動作,好比說發展 Google Assistant 所使用的「OK,Google」、「Hey,Google」。

而針對語音合成這方面,碰到的問題是如何將文字轉換成聲音,而今年 I/O 針對 Google Assistant 額外推出 6 種聲音來豐富其表現,其實背後解決的問題相當多,其中一個就是如何在龐大的語音資料庫當中,尋找跟這些聲音相同的意思組合在一起,並讓消費者得到一致性的人工智慧語音體驗,近年來更熱門的趨勢就是深度學習,透過相關模組來合成聲音。

語言處理

在語言處理這方面,第一個就是語意分析,大致上的意義就是把一段文字轉成樹狀結構,從結構當中讓機器判斷什麼是主詞、什麼是動詞,現在的做法是把文字轉成一連串的數字,用數字來比對聲音的意思,從而提升機器學習的效率。

另外,爲了讓機器「聽得懂人話」,針對句子當中重要的資訊,則必須要另外開發分析模組,像是透過 Dependcy Parsing 來分析整個句子包括動詞、受詞時間、地點的意義,另外還有透過 Named entrity recognition 分析人名、地名等資訊等等。

自然語言處理

在分析完整個語音、語言之後,接下來一個重要的動作就是自然語言處理。舉例來說:「臺北天氣如何?」在 Google Assistant 來說,它就會判斷出用戶要問的是「臺北天氣」,然後再從 Google 資料庫當中,找到臺北的天氣,然後根據這些資訊的解答,轉換成一個用戶聽得懂的自然語言句子,這在 Google Assistant 裡面,就成了一個重要的技術。

自動翻譯

接下來進入這次要探討的環節:「Machine Translation」。當 Google 已經辨識了聲音、瞭解這個聲音的內容、然後從 Google 資料庫轉成自然語言,接着碰到的問題就是翻譯成各種當地的語言,由於這是一個龐大的專案內容,因此 Google 後來發展了一個叫做「自然語言翻譯」的技術,這包括網頁、行動等不同平臺裝置支援。

如今,透過 Google 搜尋功能,可以進行即時的語音搜尋,透過Google Assistant 除了關鍵字之外,可以用自然語言跟 Google 交談,透過 Google Home 也可以與智慧裝置對話。甚至透過即時的翻譯功能,用戶在耳機當中聽到的英文,會自動翻譯成中文。

簡而言之,對於所謂的人工智慧語音功能,其背後要面對的技術挑戰相當多,不過 Google 目前已經完成的是可以正確的反饋人類需求,當使用者提供聲音進去時,會進行一個語音辨識,接着會進行語意分析,在瞭解是什麼需求的時候,再把這些使用者要的資訊,提供相對應的自然語言迴應。

接下來 Google 面對的最大挑戰,其實是要把這些自然語言迴應,以在地的方式,推送到全球每個地區,最新進度就是今年 Google I/O 宣佈的提升到支援 30 種語言、推送到全球 80 個國家。

其中,針對繁體中文這方面,宋雲軒提到了下述幾個挑戰:

第一個是「斷詞

相較於英文,不同字跟詞的意義是可以組合的,然而因爲人類大腦在看一個字可以聯想出很多意義,因此即使是同一個字也會有不同的意思,不過在中文方面,就連「斷句」本身,也有不同的意思,好比說「我們在野生動物園玩」這句話,對於機器來說,可能是「我們 在 野生動物園 玩」、也可能是「我們 在野 生動 物 園 玩」,人腦在判斷字句的時候,很自然地知道哪句話是有意義的,但是對機器來說就是一個挑戰,另外還有逗號句號的語意分析的問題,因此 Google 必須要針對斷句的語意來分析、判別,藉此瞭解句子本身的意義。

第二個是「句子結構」

相較於英文,中文的句子結構其實比較沒那麼嚴謹,像是「蘋果一個多少錢」,「一個蘋果多少錢」,就英文來說都是"How much is one Apple",但是「他昨天很晚睡」、「他昨天睡很晚」,直翻英文都是一樣,但是中文的意義不同,人類會自動依照意思翻成不同的英文,對機器來說就是一個挑戰。

第三個是「認知」

在中文來說,一個字句可以產生很不同的變化,好比說問一個人單身的原因,這個人可能直接回答「原來喜歡一個人,現在還是喜歡一個人」。在這句子當中的「一個人」背後代表的意義都不同,但是對於機器判斷來說,這兩個「一個人」都是 One Person,而不會去聯想到單身,要判別上就有難度。

第四個是「聲調」(Tonal Languages)

不同的聲調,就要做出不同的處理,繁體中文有四個聲調,像是「老師我想問你」跟「老師我想吻你」,像是「我要水餃」跟「我要睡覺」,都是完全不一樣的意思,但差別僅在聲調。

第五個是「方言」(Accent 跟 Dialect)

臺灣其實有不同的在地方言,像是臺語客家話原住民語言,人們因爲使用習慣,不同語言會作切換,好比說「五星級」、「有省錢(臺語)」只是發音相同,但是意思卻是完全不同。

▲透過Google Assistant可以啓用搜尋並且透過 Google Pay 購物訂餐,過程中如果發生語音、語意、聲調理解錯誤,那可能就會產生不必要的客訴問題。(圖/記者洪聖壹攝)

宋雲軒表示,爲了讓機器更瞭解中文,透過深度學習跟機器學習是近期最經常使用的技術,傳統的做法是去做句子結構的分析,但這個做法不僅費工耗時、而且容易發生錯誤,現在透過深度學習的技術,把每個句子轉換成一列串的數字,如果有相同的意思,在 3D 的圖形就會出現接近的距離,藉此去了解、判斷一個字句的意思。

至於繁體中文的形式也是相同,Google 透過各種不同對話資料比對,來去了解是什麼意思,並且專爲繁體中文寫一個機器學習的模組,比方說讓中文在句子結構的辨識上,使用中文字句跟英文字句配對,結果出現有明顯的進步,尤其對亞洲語言更有幫助。另外一個是透過深度學習去學習聲音的序號,對比以前把聲音轉換成特徵然後再去辨識的做法,發現有效提升 15~20%。

宋雲軒指出,Google 透過深度學習來解析句子、透過機器學習來判別一句話的意思,讓中文語音出現進展,當然最新的Duplex 技術這種實驗性的計劃,在英文得到驗證之後,未來也可以加入其他語言。

至於繁體中文解決之後,進入中國、香港會不會有問題,答案是肯定的,宋雲軒表示,誠如上述所解釋,機器在辨識語意、字句切換成自然語言的同時,這中間還要能夠辨識「方言」,有些方言可能夾雜的是當地口音,而這口音,不要說中國、香港、臺灣會有所不同,就連臺灣各地,都有不同的腔調,不過隨着使用數據的提升,其實機器學習可以因爲這些大量的數據,辨識方言。

從這次的訪談過程,可以感受到 Google Assistant 似乎已經克服了世界上最難的語言之一「繁體中文」,相信在臺灣開放中文語音包的日子已經越來越近,這也正代表着整體臺灣物聯網發展將會呈現跳躍式的成長。

依照 Google I/O 2017 期間展示的應用(詳見:Google Assistant 人工智慧助理滿週歲,接下來你隨時都會看到它 )好比說透過聲控的形式在各種不同平臺(手機電視、汽車、手錶)開啓、關閉家電,預約個人行程,撥打、接聽電話,到了 Google I/O 2018,語音助理已經演化到更自然的人聲,而且還可以幫忙訂餐、購物,同時支援更多的裝置。

記者實際在 Google Assistant 展區觀看 IoT 產品的控制形式,也有了相當層度的提升,好比說對於農夫來說,現在透過 Google Assistant 可以控制光照強度,相關指令:像是「把燈光打開到 60%」。你在家裡看電視,也不用再找遙控器上的錄影選項,直接透過語音助理說一聲即可,甚至要看家裡的信箱裡面有沒有信,也可以用聲控的方式解決,詳見下方影片

▲直擊Google I/O 2018 展示的最新 IoT 語音控制形式。(影片/記者洪聖壹攝)

這些都說明着全球各地的人類,將享受到全新的智慧語音生態系帶來的更多科技便利,某種意義來說,臺灣在這時候發展物聯網,其實也不算晚,反而需要各界通力合作,迎向新科技帶來的市場變化。

MWC 2017 期間,Google硬體資深副總裁Rick Osterloh 受訪時指出,Google Assistant 是未來整個 Google 產品的核心應用。(詳見:Google Assistant 開放更多手機使用,並將登上電視與汽車)這一點至今毋庸置疑,現在關於繁體中文版的進度也終於有了眉目,不過依照 Google 臺灣的迴應,實際上 Google Assistant 中文語音在臺上線時間仍被保密着,只能說「敬請期待」了。

▲Google Assistant研發副總裁Scott Huffman公開年底前支援的 30 個語系與上線地區當中,臺灣被繪製成藍色的區域,正意味着繁體中文即將登臺。(圖/取自Google I/O 2018)