需要更多數據訓練 OpenAI放開限制

OpenAI正試圖通過對數量龐大的非註冊用戶開放其較低版本模型ChatGPT,來擴充自己的訓練數據來源。當地時間4月1日,OpenAI宣佈,用戶無需註冊即可使用ChatGPT,即其旗下大語言模型GPT-3.5版本的對話式人工智能產品。

OpenAI在其官方網站發佈的博文中宣稱,其核心使命是讓ChatGPT等工具得到廣泛使用,以便人們可以體驗人工智能的好處。目前,每週有來自185個國家和地區的超過1億用戶使用ChatGPT。OpenAI選擇逐步推出無需註冊即可使用ChatGPT的功能,目的是讓任何對其功能感興趣的人都可以使用人工智能。

此外,OpenAI可能會使用用戶向ChatGPT提供的信息來改進其模型。不過,用戶無論是否創建賬戶,都可以通過“設置”關閉此功能。

OpenAI還補充到,其爲使用ChatGPT的未註冊用戶引入了額外的內容保護措施,例如阻止提示和更廣泛類別的生成。同時,OpenAI不忘提示稱,“創建賬戶有很多好處,包括能夠保存和查看聊天曆史記錄、共享聊天以及解鎖語音對話和自定義指令等附加功能”。

也就是說,無論用戶是否註冊使用ChatGPT,用戶在使用過程中產生的數據都可能會被OpenAI用以訓練模型,但用戶可以主動選擇關閉。相比起註冊用戶,非註冊用戶在使用ChatGPT時會有更加嚴格的內容保護政策,但OpenAI沒有詳細解釋這種限制政策具體包括什麼。

事實上,包括OpenAI、谷歌等巨頭在內,所有的致力於發展人工智能的公司,都正在或即將面臨數據短缺的困境,尤其是高質量數據的短缺。這主要由於,一方面需要數據訓練模型的人工智能公司和大模型越來越多,對數據的需求越來越大;與此同時,一些數據所有者,比如紐約時報、reddit以及馬斯克擁有的X平臺,正在不同程度上限制或阻止部分或全部人工智能公司對他們數據的訪問。

OpenAI稱,185個國家的1億多人每週使用ChatGPT。流量跟蹤器SimilarWeb發現,儘管谷歌的Gemini已經開始出現增長勢頭,但2月份訪問量估計爲16億的ChatGPT仍然是全球最大的人工智能聊天機器人網站。然而,它的流量比2023年5月的高點略有下降,當時估計訪問量超過18億。

有分析稱,這應該也是OpenAI放開限制的原因,隨着人工智能技術的發展,現有的互聯網信息量可能不足以支撐科技巨頭訓練更先進的人工智能系統,甚至高質量文本數據的不足可能減緩人工智能技術的發展速度。

據華爾街日報4月1日報道,一些高管和研究人員表示,人工智能行業對高質量文本數據的需求可能會在兩年內供不應求,這可能會減緩人工智能的發展。曾在OpenAI工作的人工智能研究員阿里·莫科斯(Ari Morcos)表示,數據短缺“是一個前沿研究問題”。

爲了應對這個問題,報道援引知情人士的說法稱,OpenAI已經討論了利用YouTube公共視頻的轉錄來訓練其下一代模型GPT-5。

在更早前的一次採訪中,OpenAI的CTO Murati在回答旗下視頻生成模型Sora的訓練數據來自哪裡時,支支吾吾並試圖迴避回答這個問題,甚至稱“不太確定”是否使用了Youtube、Facebook和Instagram等平臺的數據。

同時,OpenAI和其競爭對手Anthropic的研究人員正試圖通過創建所謂的更高質量的合成數據來避免這些問題。OpenAI的發言人表示,其還在探索合成數據生成。但也有另一些研究人員表示,這種方法實際上可能會導致嚴重的故障。

值得關注的是,The Information在上週的一篇報道中援引知情人士消息稱,微軟和OpenAI的高管一直在制訂一個數據中心項目計劃,該項目將包含一臺超級計算機,配備數百萬個專用服務器芯片,爲OpenAI的人工智能提供動力。報道稱,據一位曾與OpenAI首席執行官Sam Altman交談過的人士以及一位看過微軟部分初始成本估算的人士透露,該項目的成本可能高達1000億美元,這一成本比當今一些最大的數據中心高出100倍。

北京商報綜合報道