☰

AI產業的灰色暗面：OpenAI、谷歌、META如何搞訓練語料

財聯社4月7日訊（編輯史正丞）種種跡象顯示，目前站在全世界AI領域潮頭浪尖的這些公司，早在幾年前就已經陷入對訓練語料的“絕望”追逐中——爲此他們不惜修改政策條款、無視互聯網信息的使用規則，只爲了讓自家的產品更加先進一些。

《紐約時報》在本週末刊發的調查報道中，揭露了OpenAI、谷歌、Meta等公司爲了獲取訓練語料所採取的一些“走捷徑”措施，同時也展現了整個行業迫在眉睫的困境。

美國科技巨頭各走“捷徑”

2021年末，正在訓練GPT-4的OpenAI遇到了一個棘手的問題，公司已經耗盡了互聯網上所有可靠的英文文本資源，而他們需要更多、更大規模的數據來訓練更強大的模型。

爲了處理這個問題，OpenAI的Whisper語音識別工具誕生了——用來轉錄谷歌旗下視頻平臺Youtube的視頻音頻，生成大量的對話文本。

報道稱，包括OpenAI總裁布洛克曼在內的團隊總共轉錄了超過一百萬小時的Youtube視頻。隨後這些資料被輸入到GPT-4系統中，併成爲聊天機器人ChatGPT的基礎。

根據谷歌的政策，禁止用戶將平臺上的視頻用於“獨立”應用，同時禁止通過任何自動化手段（爬蟲等）訪問其視頻。

有趣的是，在OpenAI偷偷扒Youtube視頻時，谷歌也在轉錄自家流媒體平臺的內容訓練大模型——同樣冒着侵犯版權的風險。正因如此，雖然有谷歌員工知道OpenAI在這麼幹，也沒有出手阻止。因爲一旦谷歌對OpenAI提出抗議，也有可能“引火燒身”到自己身上。

對於是否採用Youtube視頻訓練AI的詢問，OpenAI方面迴應稱，他們使用了“多個來源”的數據。谷歌發言人Matt Bryant則表示，公司對OpenAI的行爲一無所知，且禁止任何人“未經授權抓取或下載Youtube視頻”。不過Bryant也表示，公司只會在有明確法律、技術依據時纔會採取行動。

谷歌自家的條款，則允許平臺使用這些視頻開發視頻平臺的新功能，但這樣的措辭是否意味着谷歌能用這些資料開發商用AI，也存在不小的疑問。

與此同時，Meta的內部會議紀要顯示，工程師和產品經理討論了購買美國大型出版商Simon & Schuster以獲取長文本資料的計劃，另外他們還討論了從互聯網上收集受版權保護的內容，並表示“與出版商、藝術家、音樂家和新聞行業談判授權需要的時間太多了”。

據悉，有Meta的高管表示，OpenAI似乎正在使用受版權保護的材料，所以公司也可以遵循這個“市場先例”。

更顯性的變化是，谷歌去年修改了服務條款。根據內部資料顯示，推動隱私政策變化的動機之一，包括允許谷歌利用公開的谷歌文檔、谷歌地圖上的餐廳評論，以及更多在線資料開發AI產品。最終谷歌趕在美國國慶節（7月4日）放假前的7月1日發佈了修改後的隱私條款，將“使用公開信息訓練AI模型”首次納入其中。

Bryant迴應稱，公司不會在沒有用戶“明確許可”的情況下使用他們的谷歌文檔來訓練AI，這裡指的是自願參與的實驗性功能體驗計劃。

即便如此還是不夠

正因爲這些操作，近些年來伴隨着人們對AI能力的驚歎，越來越多的版權方也開始意識到自己的數據被偷偷拿走訓練AI了。包括《紐約時報》、一些電影製作人和作家已經將這些科技公司告上法庭，美國著作權局也正在制定版權法在AI時代的適用指南。

問題在於，即便一些作家、製片人將科技公司的行爲稱爲“美國史上最大盜竊案”，科技公司用來發展下一代AI的數據依然還是不夠。

2020年初，約翰霍普金斯大學的理論物理學家（現Anthropic首席科學官）Jared Kaplan發佈了一篇論文，明確表示訓練大語言模型用的數據越多，表現就會越好。自那以後，“規模就是一切”成爲了人工智能行業的信條。

2020年11月發佈的GPT-3包含約3000億個Token的訓練數據。2022年，谷歌DeepMind對400個人工智能模型進行測試，其中表現最好的模型（之一），一個名爲Chinchilla的模型用了1.4萬億個Token的數據。到2023年，中國科學家開發的Skywork大模型在訓練中使用了3.2萬億個英文和中文Token，谷歌PaLM 2的訓練數據量則達到3.6萬億個Token。

研究機構Epoch直白地表示，現在科技公司使用數據的速度已經超過數據生產的速度，這些公司最快會在2026年就耗盡互聯網上的高質量數據。

面對這樣的問題，奧爾特曼已經提出了一種解決方法：像OpenAI這樣的公司，最終會轉向使用AI生成的數據（也被稱爲合成數據）來訓練AI。這樣開發人員在創建愈發強大的技術同時，也會減少對受版權保護數據的依賴。

目前OpenAI和一系列機構也正在研究使用兩個不同的模型，能否共同生成更有用、更可靠的合成數據——一個系統產生數據，另一個系統對信息進行評判。當然，這種技術路徑是否可行，目前仍存爭議。

前OpenAI研究員Jeff Clune認爲，這些AI系統所需的數據就像是穿越叢林的路徑，如果這些公司只是在合成數據上訓練，AI可能會在叢林裡迷失。

AI產業的灰色暗面：OpenAI、谷歌、META如何搞訓練語料

相關資訊