影片一上傳就被下架?YouTube機器學習演算機制揭秘

記者洪聖壹臺北報導

相信每個人都有這個經驗,就是經常在 YouTube 找喜歡聽的歌,但是點下去之後出現影片內容版權不符規定而下架,或者是你隨手錄製一段血腥或裸露影片上傳,馬上就被 YouTube 警告,不過隨後你會發現 YouTube 會推送相似的正版音樂MV,這個貼心的動作,其實是機器學習的成果,而且未來還會更「貼心」。

截至 2017 年 2 月,YouTube 用戶每日觀看小時數達 10 億小時,而目前每分鐘就有超過 500 小時的影片被上傳到YouTube 平臺中,其資料量之大,若真的要做到每個YouTube用戶的個性化推薦與設計,其實有一定的難度。

對此,YouTube 工程研發副總裁 Cristos Goodrow 向臺灣媒體說明,YouTube 的工作之一,其實就是幫用戶在大量的內容中主動提供他們想看的,進而提升滿意度

而針對平臺服務方面,Google 也分享了 YouTube 優化平臺服務的三大曆程:

*第一階段:「觀看時間」纔是演算法重點(2011-2012)

早在 2011 年,YouTube 就留意到使用者的觀看時間並不能真實反應出推薦的內容是否符合用戶需求,那麼假設用戶在該影片的觀看時間越長、或者是點擊越多次,那麼就代表該名用戶喜歡這類型的影片,因此這段時間,YouTube 將重點放在「觀看時間」(watchtime) ,如今證實這個想法是正確的,到了 2017 年,YouTube 上用戶每日觀看影音時數已經達到 10 億小時。

*第二階段:機器學習讓個人化影片推薦更精準(2014-2015)

隨着行動用戶的急遽攀升,已經有超過 60% 的 YouTube 的觀看時間發生在行動裝置平板上,爲此,YouTube 在這段時間針對行動裝置進行優化,好比說在行動版當中加入「再看一次」(Watch it Again)的功能,同時調整了首頁頁面的排版方式,同時透過 Google Brain 團隊導入機器學習技術,強化了機器學習推薦系統、提升影片推薦機制的準確也讓推薦影片更加個人化。

*第三階段:使用者介面個人化(2016-2017)

隨着機器學習技術的成熟發展,讓開發團隊可以作出更多事情,YouTube 光是在過去一年內,就推出了超過 190 個更新,爲了維持使用者觀影新鮮感、提高滿意度,YouTube 持續優化個人使用體驗,確保每個人都獲得最新、最熱門的內容推薦,YouTube 也將「個人化」的概念應用至使用者頁面,並於 2016 年推出更新的 YouTube 行動版首頁,介面設計比以往都更乾淨簡潔,也在首頁顯示與使用者更相關的 YouTube 個人化推薦影片。

針對 YouTube 優化方面,「YouTube 搜尋與探索團隊」隨時在 YouTube 上準備高達 100 小時觀衆感興趣的影音內容,並在YouTube 首頁上每日推薦高達 2 億個不同類型影片,涵蓋了 76 種不同語言,讓所有使用者都感受到 YouTube 真的瞭解他們的喜好,其成果就是「超過七成的觀看時間是來自觀看 YouTube 自動推薦的影片內容」。若與三年前相比,使用者在 YouTube 首頁點擊推薦影片的觀看時間成長了 20 倍。

由於每分鐘有超過 500 小時的影音被上傳到 YouTube,因此推薦系統必須對最新上傳的影音以及使用者最新採取的行爲擁有相當的反應能力。同時,從不斷爲使用者開發多元內容的角度來看,推薦系統也希望能平衡新的影音內容和現存的內容,做出更符合使用者的推薦。

爲此,Google 這兩年積極使用所謂 TensorFlow 的機器學習系統,TensorFlow 是 Google 於 2015 年開源的機器學習基礎系統,像是 Gmail、Google 相簿、Google 翻譯都有機器學習的影子,在 YouTube 用戶推薦系統當中,使用者喜歡以及不喜歡的影音都是訓練資料,這包括使用者直接在影音下方點擊「我喜歡」或「我不喜歡」的按鈕,或者其他隱性回饋訊號,例如使用者完整看完一段影音等等,都將建置於 TensorFlow 基礎上的機器學習影片推薦系統。

Cristos Goodrow 指出,爲了提供使用者更好的推薦,團隊建置了結合候選生成模型(Candidate Generation Model),以及排名模型(Ranking Model)這兩個神經網絡的推薦系統。前者將數百萬個影音資料縮小分成多個數百個與使用者相關影音的資料子集,這些資料子集把許多變因考量進去,包括瀏覽歷史、搜尋歷史以及人口變項資訊(如年齡等)。而後者則會透過提名特徵 (Nominating features)來下評分訊號的權重(Scoring Signals),相關熱門推薦影音評分結果判斷標準如下:■ 人口統計資訊(Demographic information),例如地理位置■ 最受歡迎的影音(Most popular videos)■ 使用者和影片所使用的語言■ 近期觀看紀錄■ 使用者和該影音頻道的過往連結

至於本篇報導一開始所提到的智慧判斷影片內容然後下架不雅內容的部分,主要是來自 YouTube 認爲「恐怖主義暴力極端主義內容不應在網路上散播」,因此今年六月開始將機器學習應用在辨識影音暴力內容。

Cristos Goodrow 指出,過去團隊僅依賴 YouTube 的使用者主動檢舉不當內容,再由YouTube 小組依規定進行審覈、移除違反社羣規範的內容,或是加上年齡限制等設定,但這樣子做實在太慢、而且不確實。今年六月起,團隊導入機器學習技術去識別暴力極端主義相關內容,找出這些內容後,再交由系統進一步判別並審查,其結果就是,直至今年九月,所有因爲含有暴力極端主義內容而遭強制下架的所有違規影片中,有超過八成的影片是在使用者還沒提出任何檢舉之前,就已經從 YouTube 上移除的,跟八月相比,提升了 8%。

Google 透露,這仍是實行至今的初步成果,爲了加強這個移除機制的準確度,以及減少誤判的情況發生,YouTube 小組審覈了超過 100 萬部的影片,希望能夠透過爲系統提供大量的訓練實例,讓機器學習的應用效益達到最佳化。

即便如此,開發團隊仍然認爲機器識別技術和審查機制仍不夠完善,還需要持續進步以降低誤判,因此開發團隊開始讓機器學習來「認識」影音中人類的動作,爲了提升機器學習認知影片中人類動作的能力,開發團隊導入原子視覺化動作數據學習模式(Atomic Visual Actions, AVA)。

目前 AVA 已經分析了超過 57 萬組影音片段、生成 21 萬個動作標籤總計標註了 9 萬 6000 組人類的動作。不過目前 AVA 仍在研究初步階段,Google 承諾,未來希望有更多的研究投入,能夠加速 AVA 的發展,讓整個 YouTube 影片內容生態朝向正向發展。