☰

機器如何聽懂我們說的話？

機器如何聽懂我們說的話？(示意圖／達志影像shutterstock提供)

◸完善的歷史發展軌跡

人工智慧是近年來的科技發展趨勢，本書以林守德教授開頭介紹人工智慧的發展歷史及其碰到的瓶頸，讓讀者瞭解：即使是現在大熱門的人工智慧也經歷過三次的寒冬。

◸先從基底打起！

以清晰圖像圖表整理，詳細介紹AI的各個領域：支撐向量、資料探勘、自然語言處理及電腦視覺，以基礎知識帶領讀者進入AI的世界。

◸爲什麼要發展人工智慧？當然不是隻爲了下棋！

詩詞．法律．資訊工程．社羣網路．電機工程．生醫產業．音樂產業

本書以多個領域介紹AI的應用，讓讀者一窺各界翹楚分享的秘辛及知識，顛覆你對AI的認知！

【精彩書摘】

講師／臺灣大學電機工程學系副教授　李宏毅

彙整／蘇建翰

你有使用過手機的語音助理服務嗎？只要輕鬆地動動嘴巴，就能讓手機言聽計從，完成我們交付的任務。這個「出一張嘴」的過程之所以能夠順利進行，背後得牽涉到許多語音處理和自然語言處理的技術。本章將會說明如何才能讓機器聽懂人說話，一探背後工程的奧秘之處。

機器是怎麼聽懂人說話的？

要讓機器聽懂人說的話，首先我們需要讓機器可以把聽到的一段聲音訊號變成文字，也就是所謂的語音辨識(speech recognition)。有了這些由聲音訊號辨識出來的文字不代表機器就已經理解了，對於機器來說這些文字就像是一個沒有學過的語言，還需要透過學習才能夠理解文字的內容。

人類的文字世界是由一個個詞彙組成的，這個事實體現在許多人開始學習英文或其他非母語語言的時候，大概都免不了的那段背單字過程；機器的學習也和我們一樣，是從詞彙的理解開始。在過去，我們需要像字典一樣，逐一告訴機器詞彙對應的意義；現在基本上不再需要進行這項繁瑣的工作，只要利用詞彙嵌入(word embedding)的技術，機器就可以在閱讀大量文本之後，將詞彙轉換成機器可以處理的向量，甚至利用向量推論出不同詞彙之間的關係。

舉例來說，機器在閱讀新聞時看到「馬英九在520宣誓就職」和「蔡英文在520宣誓就職」這兩個條目，雖然沒有人告訴過機器「馬英九」與「蔡英文」是什麼意思，但是機器能以此推論出這兩個詞彙在某種程度上是相關的；又比如「貓」與「狗」在各類文章中出現的位置關聯比較相近，和「花草樹木」的位置關聯則較遠，機器可能會推論出「貓狗」是一類（動物）、「花草樹木」是另外一類（植物）。如果我們讓機器「讀」愈多的書，機器就愈能推敲不同詞彙之間的遠近關係，猜出它們代表的意思。

跟着鄉民去湊熱鬧

傳統的文本內容有文法及結構，在學習上比較有跡可循；而網路用語往往讓人丈二金剛摸不着頭腦，不僅內容隨着時間千變萬化又包含着各種縮寫，詞彙的意義也和該網路社羣的文化有關。因此，機器是否能夠理解網路用語並當一個合格的「鄉民1 」，可以作爲衡量機器學習能力的指標。

批踢踢實業坊（簡稱批踢踢、PTT）的八卦版是國內知名的網路論壇之一，在經過八卦版3個月份量的文章洗禮之後，機器儼然已經脫離了「新警察2 」的角色。比如常見的用語「好棒棒」和「好棒」看似差不多，但其實在批踢踢用語裡是恰恰相反的兩個詞彙。經過訓練之後，當機器被問到「好棒棒」的相似詞爲何時，已經能給出「阿不就好棒棒」、「好清高」及「好高尚」等等的答案，從這個結果我們就可以知道，機器是真的理解這個詞彙的用法，能夠發現「好棒棒」在其表面的詞意以外，其實具有反諷的意涵。

有了這個功能之後，我們就可以利用機器去理解一些我們本來不熟悉的網路用語。比如說，「本魯」這個詞是批踢踢使用者在張貼文章、發表言論時，常使用的謙稱，日常生活中幾乎沒有機會使用到，因此非論壇使用者通常對這個詞比較不熟悉。透過詢問訓練完成的機器「本魯」的相近用詞是什麼，我們可以得到「小弟」、「魯妹」、「魯弟」及「魯蛇小弟」等答案，據此我們就能對「本魯」的意義有所理解。

有了這樣子的技術之後，機器在詞彙理解之外，也能去進行一些較高層次的簡單推理，例如「A之於B等於C之於什麼？」這類推論。比如說，當被問到「魯夫之於《海賊王》等於鳴人之於什麼？」機器可以推論出答案是《火影忍者》，這種角色和作品的對應關係；對於「魯蛇之於loser等於溫拿之於什麼？」機器可以推論出答案是「winner」，這種語言轉換的對應關係；對於「研究生之於期刊等於漫畫家之於什麼」，機器可以推論出答案是《少年Jump》，這種特定領域知識和發表平臺的對應關係。

注1 泛稱批踢踢的使用者。

注2 批踢踢對不熟悉論壇文化的新手使用者之代稱。

讓機器懂你的心

擁有理解不同詞彙意義的能力之後，接下來我們很自然地會希望機器能理解整個句子的內容。怎麼樣去衡量機器是否能夠達到這個任務呢？第一步，要交付給機器的任務就是情緒分析(sentiment analysis)，機器必須要能夠分析語句的情緒，判斷內容的情緒是「正面的」還是「負面的」。這件事情可以透過遞迴神經網路模型的訓練來達成，比如說：

·「AI is powerful, but it's hard to learn.」

·「AI is hard to learn, but it's powerful.」

·「AI is powerful, even though it's hard to learn.」

這幾個句子的結構幾乎相同，只有調動詞語的順序，或者字詞上的輕微差別；但是經過訓練的機器可以判斷出這些句子的情緒分別是「負面的」、「正面的」、「正面的」。這個功能雖然只有簡單的在「正面」、「負面」兩種選擇之間進行判斷，卻可以發展出生活化且相當實用的應用，比如說：現在網路上的評價制度在使用者的評價以外還須附上分數；如果是遊記、食記等心得體驗文則以文章形式呈現。這類觸及廣大讀者卻不受統一評分制度限制的內容，也應當是業者需要蒐集來作爲改進參考的意見。當機器能夠判斷情緒，在未來我們就可以應用到市場的調查上，去分析這一類的文章。

託福(TOEFL)是許多學子出國留學之前要經過的關卡之一。如果讓機器考考看託福的聽力測驗，機器能否順利通過考驗呢？在這個任務之中，機器必須聽懂一段聲音訊號的內容、看懂問題和選項，最後結合聽力和閱讀的理解去選出答案，因此必須能夠運用前述的各項能力。當然，就如同我們考試之前會去刷一下考古題，此機器學習的材料就是歷年託福的聽力考題。目前的成果可以達成五成以上的正確率，跟瞎猜或者是「選最長的選項」等，各種同學間私下流傳的答題技巧的結果比起來可說是好上許多；雖然還不是很完美，但可以讓人知道，機器已經能夠初步理解整段文字的內涵了。

(本文摘自《智慧新世界──圖靈所沒有預料到的人工智慧》/三民出版)

【作者簡介】

【臺大科學教育發展中心探索基礎科學系列講座】

自1825年起，英國皇家科學院舉辦了「皇家科學耶誕講座」，以富有教育性、趣味性的方式，將科學知識介紹給社會大衆，提升英國學子、民衆的科學素養。無數的學者曾在此講座中講授科學知識，而除了在第二次世界大戰時曾暫停舉行外，這一具有古老傳統的科普講座，至今仍持續不斷。

臺灣大學科學教育發展中心自2009年起，師法「皇家科學耶誕講座」，舉辦「探索基礎科學講座」，借重學養與教學俱佳的科學大師們開講，與有志探索科學世界的朋友們共聚一堂。講座的主題與基礎科學知識緊密相連，每期輪流就數學、物理、化學、生命科學、地球科學各學門開闢講題，講師們仔細清楚的解說科學原理，許多非科學背景的聽衆們，也能迅速的進入科學世界，體會探索知識的樂趣。

本講講師羣是臺灣學術界關於「人工智慧」研究的各方翹楚：

林守德▸臺灣大學資訊工程學系教授

林軒田▸臺灣大學資訊工程學系教授

陳銘憲▸臺灣大學電機工程學系特聘教授

陳信希▸臺灣大學資訊工程學系特聘教授

莊永裕▸臺灣大學資訊工程學系教授

邵軒磊▸臺灣師範大學東亞學系副教授

李宏毅▸臺灣大學電機工程學系副教授

李政德▸成功大學數據科學研究所副教授

張智威▸HTC健康醫療事業部總經理．史丹佛大學電腦系客座教授．日本SmartNews人工智慧顧問

陳倩瑜▸臺灣大學生物產業機電工程學系教授

楊奕軒▸中央研究院資訊科技創新研究中心副研究員

《智慧新世界──圖靈所沒有預料到的人工智慧》/三民出版

機器如何聽懂我們說的話？

相關資訊