上百萬智能體在OASIS模擬平臺上玩推特,AI和真人有多像?
OASIS 的共同第一作者爲(按隨機順序):阿卜杜拉國王科技大學(KAUST)訪問學生,上海 AI Lab 實習生,CAMEL AI 社區實習生楊子熠,以及大連理工大學博士生、上海 AI Lab 實習生張再斌(導師爲盧湖川教授)。
通訊作者包括:上海 AI Lab 星啓研究員尹榛菲,Egent.AI CEO、CAMEL AI 社區發起人李國豪,以及上海 AI Lab 青年科學家邵婧。
由超過一百萬個大模型智能體組成的虛擬社會會是什麼樣的?
最近,上海 AI Lab、CAMEL-AI.org、大連理工大學、牛津大學、馬普所等國內外多家機構聯合發佈了一個名爲 OASIS 的百萬級智能體交互開源項目。
該項目構建了一個以大模型爲基座的通用社會模擬平臺,支持多達百萬個 AI 智能體進行交互。研究人員可以利用 OASIS 輕鬆模擬超大規模 AI 智能體在複雜社會環境中的互動。
例如,在社交媒體場景(例如 Twitter 和 Reddit 等平臺)上對消息傳播、羣體極化和羊羣效應等經典社會現象進行研究。
這些示範性研究驗證了 OASIS 作爲社會模擬平臺的有效性和實用性,同時 OASIS 也對智能體社會在大模型和智能體邁向 AGI 的技術路徑中產生的影響進行了討論。
研究背景
隨着大語言模型通用能力的不斷提升,基於大語言模型的 AI 智能體已成爲當前 AI 領域的主要研究趨勢。從單個智能體的研究到多個智能體的交互,誕生了諸多引人注目的成果,例如 CAMEL [1]、Generative Agents [2]、ChatDEV [3]、MetaGPT [4] 等。
然而,現有方法普遍面臨以下幾個挑戰:
1.規模擴展不足:目前很少有研究將智能體的交互數量擴展到上萬量級,而實現這一目標需要克服複雜的工程挑戰。
2.交互形式有限:即便有一些工作實現了上萬量級的智能體交互,這些交互的形式仍然較爲初步,通常只能支持簡單場景的模擬。
OASIS 平臺思考的核心問題之一是:「如何設計一個平臺,能夠支持上萬甚至上百萬智能體的交互模擬?」
一個很直觀的想法是採用類似「羣聊」的模式,但讓一百萬個智能體同時參與羣聊顯然不現實。
現實生活中,有一種成熟的平臺每天支持數億用戶的高頻交互,那就是社交媒體。
琳琅滿目的社交媒體 APP [5]
社交媒體已經深刻改變了我們的生活、工作和學習方式,同時也徹底革新了人們的溝通與協作模式。它不僅能夠支持超大規模用戶的高效交互,還可以靈活擴展到各種應用場景。
因此,社交媒體爲構建一個支持大規模智能體交互的通用平臺提供了理想的基礎。
正是基於這一認識,OASIS 團隊從社交媒體的視角出發,設計並搭建了這一平臺,旨在充分利用社交媒體的優勢,探索和實現智能體的大規模交互與協作。
OASIS 框架
OASIS 框架的主要特點有:
可擴展性
OASIS 基於社交媒體的基本組件進行設計,因此可以適配不同形式的社交媒體平臺,例如X(原 Twitter)、Reddit等,用戶能夠輕鬆搭建符合自身需求的社交媒體環境。進一步來說,OASIS 模塊性的設計使得研究人員可以輕鬆的將其拓展到其他場景中,例如城市模擬、AI Scientist Society 等等,這種靈活性使其適用於多種研究和應用場景。
支持大規模交互
OASIS 在計算資源上的優化表現尤爲突出。例如,利用24 塊 A100 GPU,可以在一週內完成百萬級智能體的模擬;而對於上萬規模的智能體交互,僅需1 塊 A100 GPU即可完成。這種高效性能大幅降低了大規模智能體研究的門檻。
複雜性和真實性
OASIS 支持21 種不同的交互動作,包括髮帖、轉發、點贊、關注、搜索等,全面模擬社交媒體用戶的行爲。此外,OASIS 還集成了推薦系統、動態環境等高級功能,爲研究複雜的社會行爲提供了一個高度仿真的環境,滿足用戶多樣化的研究需求。
OASIS 整體結構
OASIS 由以下五大核心組成部分:
1. Environment Server(環境服務)
環境模塊是整個社交媒體環境的核心數據庫,負責存儲用戶、帖子、關注關係等動態信息。這些數據支持實時更新,模擬真實社交媒體交互的動態性和複雜性。
2. Information Channel(信息通道)
Information Channel(信息通道)將根據當前環境的定義來選擇如何傳遞智能體之間的交互信息。如在社交媒體中,信息通道會根據社交網絡和推薦系統從 Environment Server 獲取用戶信息、帖子內容和關注關係等數據,並參考 Twitter 的開源技術方案搭建了類似 X 平臺 的算法。該系統可以根據用戶的關注和興趣進行精準的信息推送。
同時,信息通道是模塊化的,即插即用,支持輕鬆切換到其他平臺(如 Reddit)的推薦機制,以及其他領域的信息交換機制(如 AI 審稿和 Arxiv 機制)。
3. Action Module
推薦系統會將精選的帖子推送給智能體。智能體根據帖子信息採取不同的動作(action)。OASIS 支持多種開源或閉源的大語言模型(LLM),並賦予智能體豐富的交互能力,從而與環境進行高度仿真的互動。
4. Time Engine
爲了模擬社交媒體中的時間概念,OASIS 設計了時序概率激活模塊,通過採集用戶發佈內容的頻率,模擬用戶在不同時間點的行爲,提升系統的仿真性。
5. Scalable Inferencer
爲支持大規模智能體的高效模擬,OASIS 採用多線程調度、負載均衡等技術,在模擬過程中同時運行上百個線程以處理推理任務。該設計顯著提升了推理效率,滿足上萬甚至百萬級智能體交互的需求。
OASIS 的工作流
1. 用戶生成
該團隊通過數據採集與生成的方式獲取大規模用戶信息,並將這些信息註冊到 Environment Server(環境服務器)中,構建社交媒體環境的基本框架。
2. 信息通道
Environment Server(環境服務器)將用戶、帖子和關係數據傳遞給 Information Channel(信息通道)。
信息通道會根據當前場景中特定的環境規則,決定信息如何推送給其他智能體。例如,在社交媒體中,信息通道會根據社交網絡和推薦算法將個性化內容推送給不同的智能體。
3. 智能體交互
智能體基於推薦內容與環境進行交互,其行爲(action)會動態更新到 Environment Server(環境服務器)中,從而形成閉環模擬真實社交媒體的動態演化過程。
社會模擬實驗
研究團隊利用 OASIS 框架在 X 平臺和 Reddit 平臺上開展了多個經典的社會現象實驗,包括消息傳播、羣體極化、流言傳播以及羊羣效應。
1. 消息傳播實驗
消息傳播實驗旨在通過 OASIS 儘可能模擬真實世界的場景,觀察其是否能夠較好地復現消息傳播的趨勢。
研究團隊選用了開源的 Twitter15 和 Twitter16 數據集,並通過 Twitter API 收集了數據集中用戶的相關信息(如個人簡介、歷史推文等)。
在實驗中,他們重現了 200 條源推文的傳播路徑,並將模擬結果與真實數據進行了對比分析,以評估模型的復現能力。
研究團隊從三個維度分析了模擬結果與真實結果之間的差距:傳播規模(Scale,指影響到的用戶數量)、傳播深度(Depth,指信息傳播的層級滲透程度)以及傳播最大廣度(Max Breadth,指傳播路徑的最大分支數)。
結果顯示,在傳播規模和廣度方面,模擬結果與真實結果較爲接近。然而,在傳播深度上,模擬結果與真實情況存在一定差距。
這種差距是可以理解的,因爲 Twitter 在用戶建模方面更爲精細,能夠更準確地捕捉用戶的興趣偏好和行爲特徵,從而更有效地反映傳播深度的實際情況。
2. 羣體極化實驗
研究團隊還利用 OASIS 模擬了一個經典的社會心理學實驗 —— 羣體觀點極化實驗(Group Polarization),並將實驗場景遷移至 Twitter 平臺進行。羣體極化現象指用戶的觀點在交互過程中逐漸變得更加極端化。
在實驗中,該團隊向 196 名用戶發佈了一條爭議性的帖子。帖子的內容是:「一個已經取得一定成功的作家,是否應該冒着收入中斷的風險撰寫一部宏偉鉅著以增加成名概率,還是維持現狀,享受穩定的收入。」
通過這種情景模擬,研究團隊在多輪交互中對用戶的觀點進行問卷調查,以記錄其態度的變化趨勢。結果如圖所示。
從實驗結果可以看出,隨着交互的不斷進行,用戶的觀點逐漸趨於極端,並給出愈發偏激的回答。
該團隊進一步測試了未設安全護欄的 Uncensored 模型與經過對齊處理的 Aligned 模型,結果顯示,Uncensored 模型的極端化趨勢顯著更加明顯。這表明,去除安全約束後,模型在交互中的觀點極端化程度會進一步加劇。
3. 羊羣效應實驗
該團隊利用 OASIS 的 Agent Society 模塊復現了一項發表於 Science 的研究 [6],探討了羊羣效應(Herding Effect)的現象。
羊羣效應是指個體傾向於追隨羣體的行爲或觀點,例如用戶更傾向於點贊那些已有大量點讚的帖子。
實驗在模擬的 Reddit 平臺中進行,該平臺僅顯示帖子的最終得分(點贊數減去點踩數)。帖子被分爲三組進行對比實驗:
通過觀察智能體在交互後各組帖子的最終得分變化,可以評估初始得分對用戶行爲的影響。實驗結果(如下圖所示)表明,初始「贊」顯著提高了帖子最終得分,而初始 「踩」則對得分造成了抑制效果。這表明,用戶在決策時受到羣體行爲的顯著影響,進一步驗證了羊羣效應的存在。
實驗結果顯示,agent 表現出比人類更強的羊羣效應。當一條初始評論收到「反對」 時,agent 更傾向於繼續跟隨他人行爲,進一步點「踩」 或減少點「贊」。
4. 流言傳播實驗
研究團隊構建了一個包含 100 萬用戶的 Twitter 社交環境,其中包括 196 個核心用戶(擁有大量粉絲的大 V),其餘用戶爲普通用戶。
在實驗中,論文作者們讓分析能力最強的核心用戶發佈了 8 條消息,這些消息包括 4 對真假消息對,分別涉及科技、娛樂、教育和健康等領域。
實驗模擬了 96 分鐘的交互過程,每 3 分鐘爲一個時間步。在此期間,該團隊統計了真假消息相關帖子的數量變化,以分析真假消息的傳播和影響力差異。
實驗結果顯示,流言(假消息)的影響力顯著強於真消息。這一現象表明,在 OASIS 構建的代理社會中,假消息的傳播規律與人類社會中類似 [7],表現出對假消息的強傾向性。
團隊對新增的關注關係進行了可視化,其中綠色的點表示用戶,紅色的線表示新增的關注關係。從可視化結果可以觀察到,用戶之間的新增關注關係呈現出明顯的聚集效應。
這種現象與謝林隔離模型(Schelling Segregation Model)[8] 中的羣體聚集模式有一定相似之處。
具體來說,用戶更傾向於關注與自己已有社交網絡更接近的用戶,導致新增的關係逐步形成小型的網絡團體。
5. 不同量級的實驗
研究團隊還模擬了不同羣體規模對實驗結果的影響,並從中得出了一些發現。例如,隨着羣體規模的擴大,Agent 的觀點更有建設性,羣體行爲的趨勢也更加顯著。具體內容請參見論文。
用戶規模越大,用戶的觀點更加有建設性。
用戶的規模越大,羣體行爲的趨勢就更明顯。
社區反饋
OASIS 發佈後,引發了許多人對 Agent 社會的暢想,一些大 V 也紛紛分享了自己的觀點。
例如,假如 AI Agent 社會與人類社會融爲一體,我們該如何區分 Agent 和人類?這是一個非常值得深入研究的問題。
一些網友想要把 OASIS 框架融入到 APP 世界中,讓 agent 操縱自己的賬戶以及各種各樣的日常 APP。
也有的網友對於能進行 100 萬量級智能體交互感到非常有趣和驚訝。
總結
OASIS 是我們邁向「智能體社會」過程中的一個節點。研究團隊希望 OASIS 成爲人工智能、社會科學等多個學科領域的有力工具。他們將在這個起點上繼續推出更多工作,歡迎感興趣的朋友們 Star,或直接建聯,共同探索 AI 未來的無限可能!
參考文獻:
[1] CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society
[2] Generative Agents: Interactive Simulacra of Human Behavior
[3] ChatDev: Communicative Agents for Software Development
[4] MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework
[5] https://www.firesideagency.ca/online-marketing/why-your-business-needs-more-than-just-a-social-media-presence/
[6] Social Influence Bias: A Randomized Experiment
[7] The spread of true and false news online
[8] Dynamic Models of Segregation