機器如何聽懂我們說的話?

機器如何聽懂我們說的話?(示意圖/達志影像shutterstock提供)

◸完善的歷史發展軌跡

人工智慧是近年來的科技發展趨勢,本書以林守德教授開頭介紹人工智慧的發展歷史及其碰到的瓶頸,讓讀者瞭解:即使是現在大熱門的人工智慧也經歷過三次的寒冬。

◸先從基底打起!

以清晰圖像圖表整理,詳細介紹AI的各個領域:支撐向量、資料探勘、自然語言處理及電腦視覺,以基礎知識帶領讀者進入AI的世界

◸爲什麼要發展人工智慧?當然不是隻爲了下棋!

詩詞.法律.資訊工程.社羣網路電機工程.生醫產業.音樂產業

本書以多個領域介紹AI的應用,讓讀者一窺各界翹楚分享的秘辛及知識,顛覆你對AI的認知!

【精彩書摘

講師臺灣大學電機工程學系副教授 李宏毅

彙整蘇建

你有使用過手機語音助理服務嗎?只要輕鬆地動動嘴巴,就能讓手機言聽計從,完成我們交付的任務。這個「出一張嘴」的過程之所以能夠順利進行,背後得牽涉到許多語音處理和自然語言處理的技術。本章將會說明如何才能讓機器聽懂人說話,一探背後工程的奧秘之處。

機器是怎麼聽懂人說話的?

要讓機器聽懂人說的話,首先我們需要讓機器可以把聽到的一段聲音訊號變成文字, 也就是所謂的語音辨識(speech recognition)。有了這些由聲音訊號辨識出來的文字不代表機器就已經理解了,對於機器來說這些文字就像是一個沒有學過的語言,還需要透過學習才能夠理解文字的內容

人類的文字世界是由一個個詞彙組成的,這個事實體現在許多人開始學習英文或其他非母語語言的時候,大概都免不了的那段背單字過程;機器的學習也和我們一樣,是從詞彙的理解開始。在過去,我們需要像字典一樣,逐一告訴機器詞彙對應意義;現在基本上不再需要進行這項繁瑣的工作,只要利用詞彙嵌入(word embedding)的技術,機器就可以在閱讀大量文本之後,將詞彙轉換成機器可以處理的向量,甚至利用向量推論出不同詞彙之間的關係

舉例來說,機器在閱讀新聞時看到「馬英九在520宣誓就職」和「蔡英文在520宣誓就職」這兩個條目,雖然沒有人告訴過機器「馬英九」與「蔡英文」是什麼意思,但是機器能以此推論出這兩個詞彙在某種程度上是相關的;又比如「貓」與「狗」在各類文章中出現的位置關聯比較相近,和「花草樹木」的位置關聯則較遠, 機器可能會推論出「貓狗」是一類(動物)、「花草樹木」是另外一類(植物)。如果我們讓機器「讀」愈多的書,機器就愈能推敲不同詞彙之間的遠近關係,猜出它們代表的意思。

跟着鄉民去湊熱鬧

傳統的文本內容有文法及結構,在學習上比較有跡可循;而網路用語往往讓人丈二金剛摸不着頭腦,不僅內容隨着時間千變萬化又包含着各種縮寫,詞彙的意義也和該網路社羣的文化有關。因此,機器是否能夠理解網路用語並當一個合格的「鄉民1 」,可以作爲衡量機器學習能力的指標。

踢踢實業坊(簡稱批踢踢、PTT)的八卦版是國內知名的網路論壇之一,在經過八卦版3個月份量的文章洗禮之後,機器儼然已經脫離了「新警察2 」的角色。比如常見的用語「好棒棒」和「好棒」看似差不多,但其實在批踢踢用語裡是恰恰相反的兩個詞彙。經過訓練之後,當機器被問到「好棒棒」的相似詞爲何時,已經能給出「阿不就好棒棒」、「好清高」及「好高尚」等等的答案,從這個結果我們就可以知道,機器是真的理解這個詞彙的用法,能夠發現「好棒棒」在其表面的詞意以外,其實具有反諷的意涵

有了這個功能之後,我們就可以利用機器去理解一些我們本來不熟悉的網路用語。比如說,「本魯」這個詞是批踢踢使用者在張貼文章、發表言論時,常使用的謙稱,日常生活中幾乎沒有機會使用到,因此非論壇使用者通常對這個詞比較不熟悉。透過詢問訓練完成的機器「本魯」的相近用詞是什麼,我們可以得到「小弟」、「魯妹」、「魯弟」及「魯蛇小弟」等答案,據此我們就能對「本魯」的意義有所理解。

有了這樣子的技術之後,機器在詞彙理解之外,也能去進行一些較高層次的簡單推理, 例如「A之於B等於C之於什麼?」這類推論。比如說,當被問到「魯夫之於《海賊王》等於鳴人之於什麼?」機器可以推論出答案是《火影忍者》,這種角色和作品的對應關係;對於「魯蛇之於loser等於溫拿之於什麼?」機器可以推論出答案是「winner」,這種語言轉換的對應關係;對於「研究生之於期刊等於漫畫家之於什麼」,機器可以推論出答案是《少年Jump》,這種特定領域知識和發表平臺的對應關係。

注1 泛稱批踢踢的使用者。

注2 批踢踢對不熟悉論壇文化的新手使用者之代稱。

讓機器懂你的心

擁有理解不同詞彙意義的能力之後,接下來我們很自然地會希望機器能理解整個句子的內容。怎麼樣去衡量機器是否能夠達到這個任務呢?第一步,要交付給機器的任務就是情緒分析(sentiment analysis),機器必須要能夠分析語句的情緒,判斷內容的情緒是「正面的」還是「負面的」。這件事情可以透過遞迴神經網路模型的訓練來達成,比如說:

·「AI is powerful, but it's hard to learn.」

·「AI is hard to learn, but it's powerful.」

·「AI is powerful, even though it's hard to learn.」

這幾個句子的結構幾乎相同,只有調動詞語的順序,或者字詞上的輕微差別;但是經過訓練的機器可以判斷出這些句子的情緒分別是「負面的」、「正面的」、「正面的」。這個功能雖然只有簡單的在「正面」、「負面」兩種選擇之間進行判斷,卻可以發展出生活化且相當實用的應用,比如說:現在網路上評價制度在使用者的評價以外還須附上分數;如果是遊記、食記等心得體驗文則以文章形式呈現。這類觸及廣大讀者卻不受統一評分制度限制的內容,也應當是業者需要蒐集來作爲改進參考的意見。當機器能夠判斷情緒,在未來我們就可以應用到市場的調查上,去分析這一類的文章。

託福(TOEFL)是許多學子出國留學之前要經過的關卡之一。如果讓機器考考看託福的聽力測驗,機器能否順利通過考驗呢?在這個任務之中,機器必須聽懂一段聲音訊號的內容、看懂問題和選項,最後結合聽力和閱讀的理解去選出答案,因此必須能夠運用前述的各項能力。當然,就如同我們考試之前會去刷一下考古題,此機器學習的材料就是歷年託福的聽力考題。目前的成果可以達成五成以上的正確率,跟瞎猜或者是「選最長的選項」等,各種同學間私下流傳的答題技巧的結果比起來可說是好上許多;雖然還不是很完美,但可以讓人知道,機器已經能夠初步理解整段文字的內涵了。

(本文摘自《智慧新世界──圖靈所沒有預料到的人工智慧》/三民出版)

【作者簡介】

【臺大科學教育發展中心探索基礎科學系列講座

自1825年起,英國皇家科學院舉辦了「皇家科學耶誕講座」,以富有教育性、趣味性的方式,將科學知識介紹給社會大衆,提升英國學子、民衆的科學素養。無數的學者曾在此講座中講授科學知識,而除了在第二次世界大戰時曾暫停舉行外,這一具有古老傳統的科普講座,至今仍持續不斷。

臺灣大學科學教育發展中心自2009年起,師法「皇家科學耶誕講座」,舉辦「探索基礎科學講座」,借重學養與教學俱佳的科學大師們開講,與有志探索科學世界的朋友們共聚一堂。講座的主題與基礎科學知識緊密相連,每期輪流就數學、物理、化學、生命科學、地球科學各學門開闢講題,講師們仔細清楚的解說科學原理,許多非科學背景的聽衆們,也能迅速的進入科學世界,體會探索知識的樂趣。

本講講師羣是臺灣學術界關於「人工智慧」研究的各方翹楚:

林守德▸臺灣大學資訊工程學系教授

林軒田▸臺灣大學資訊工程學系教授

陳銘憲▸臺灣大學電機工程學系特聘教授

陳信希▸臺灣大學資訊工程學系特聘教授

永裕▸臺灣大學資訊工程學系教授

邵軒磊▸臺灣師範大學東亞學系副教授

李宏毅▸臺灣大學電機工程學系副教授

李政德▸成功大學數據科學研究所副教授

張智威▸HTC健康醫療事業部總經理.史丹佛大學電腦系客座教授.日本SmartNews人工智慧顧問

陳倩瑜▸臺灣大學生物產業機電工程學系教授

楊奕軒▸中央研究院資訊科技創新研究中心副研究員

《智慧新世界──圖靈所沒有預料到的人工智慧》/三民出版